Stability AI, perusahaan di balik generator gambar populer Stable Diffusion, telah meluncurkan generasi terbaru modelnya yang dirancang untuk lebih mudah disesuaikan dan serbaguna. Versi terbaru ini diklaim mampu menghasilkan konten yang lebih beragam dan representatif.
Stable Diffusion 3.5 hadir dalam tiga varian: Large, Large Turbo, dan Medium. Stable Diffusion 3.5 Large memiliki 8 miliar parameter dan mampu menghasilkan gambar dengan resolusi hingga megapiksel. Stable Diffusion 3.5 Large Turbo memiliki kemampuan yang sama dengan Large, namun menghasilkan gambar lebih cepat dengan mengorbankan sedikit kualitas.
Sementara itu, Stable Diffusion 3.5 Medium dirancang untuk berjalan di perangkat edge, seperti laptop, tablet, dan smartphone. Varian ini dapat menghasilkan gambar dalam berbagai ukuran, mulai dari seperempat MP hingga 2 MP. Versi Large dan Large Turbo sudah tersedia saat ini, sedangkan Medium akan diluncurkan pada akhir bulan, tepatnya tanggal 29 Oktober.
SD 3.5 menjanjikan peningkatan kinerja yang signifikan dibandingkan pendahulunya, Stable Diffusion 3.0, yang diluncurkan pada bulan Juni lalu. SD 3.0 disambut dengan amarah dan kekecewaan dari pengguna karena ketidakmampuan model untuk secara akurat menampilkan anggota tubuh dan jari, terutama untuk subjek yang digambarkan berbaring di atas rumput, serta artefak yang merajalela dan kesulitan mengikuti prompt yang diberikan.
Perusahaan mengakui bahwa SD 3.0 "tidak sepenuhnya memenuhi standar kami atau harapan komunitas" tetapi menegaskan bahwa "Stable Diffusion 3.5 mencerminkan komitmen kami untuk memberdayakan pembangun dan kreator dengan alat yang mudah diakses, canggih, dan gratis untuk sebagian besar penggunaan."
Model 3.5 yang baru juga telah dilatih untuk menghasilkan gambar manusia yang lebih beragam, menciptakan "gambar yang mewakili dunia, bukan hanya satu jenis orang, dengan warna kulit dan fitur yang berbeda," dan tanpa perlu prompt yang ekstensif.
“Selama pelatihan, setiap gambar diberi keterangan dengan beberapa versi prompt, dengan prompt yang lebih pendek diprioritaskan,” kata Hanno Basse, CTO Stability, kepada TechCrunch. “Ini memastikan distribusi konsep gambar yang lebih luas dan lebih beragam untuk setiap deskripsi teks. Seperti kebanyakan perusahaan AI generatif, kami melatih model kami dengan berbagai macam data, termasuk dataset publik yang difilter dan data sintetis.”
Meskipun demikian, masih harus dilihat apakah hal ini akan menghasilkan masalah yang sama dengan yang dihadapi Google pada bulan Februari ketika generator gambar Gemini mulai mengeluarkan "gambar yang tidak akurat secara historis" (baca: tentara Nazi kulit hitam). "Generasi gambar AI Gemini memang menghasilkan berbagai macam orang," tulis pernyataan Google yang diposting di Twitter pada bulan Februari. “Secara umum itu adalah hal yang baik karena orang-orang di seluruh dunia menggunakannya. Tapi itu meleset di sini."
Jika Anda ingin mencoba Stable Diffusion 3.5 sendiri, Large dan Large Turbo saat ini tersedia untuk diunduh dari Hugging Face. Anda dapat menemukan kode inferensi di GitHub.
Generasi terbaru Stable Diffusion ini menjanjikan masa depan yang lebih cerah dalam dunia generasi gambar, dengan kemampuan yang lebih beragam, akurat, dan mudah diakses. Namun, seperti halnya teknologi AI lainnya, masih banyak tantangan yang harus dihadapi untuk memastikan bahwa model ini digunakan dengan bijak dan bertanggung jawab. Penting untuk diingat bahwa model AI seperti Stable Diffusion adalah alat yang kuat dan harus digunakan dengan hati-hati untuk menghindari penyebaran informasi yang menyesatkan atau bias.
Penting untuk terus memantau perkembangan Stable Diffusion dan model AI generatif lainnya, serta membahas implikasi etis dan sosial dari teknologi ini. Dengan teknologi AI yang terus berkembang pesat, penting untuk memastikan bahwa penggunaannya selalu berfokus pada kebaikan dan kemajuan bersama.
Postingan terkait:
Belum ada tanggapan untuk "Stable Diffusion 3.5 Dirilis, Ini Fitur Terbarunya"
Post a Comment