Model terbaru GPT-4o yang baru saja dirilis oleh OpenAI kini bisa bersaing dengan model pembuat gambar AI terkemuka lainnya seperti Midjourney, Google Imagen 3, dan Adobe Firefly.
Dengan kemampuan yang jauh lebih baik dalam menghasilkan gambar berkualitas tinggi, GPT-4o hadir untuk memberikan pengalaman pembuatan gambar yang lebih realistis dan detail melalui platform ChatGPT.
Dulunya, OpenAI menggunakan DALL-E sebagai generator gambar, namun dengan adanya GPT-4o, kini generator gambar default di ChatGPT Plus adalah model terbaru ini. Pengguna dapat langsung menghasilkan gambar hanya dengan memberikan deskripsi yang diinginkan, tanpa harus beralih ke platform lain.
Dengan hadirnya GPT-4o, OpenAI tetap mempertahankan format yang praktis. Pengguna ChatGPT Plus secara otomatis menggunakan GPT-4o sebagai generator gambar default, sehingga proses pembuatan gambar menjadi lebih mudah.
Cukup masukkan deskripsi yang diinginkan, dan AI akan menghasilkan gambar sesuai perintah. Fitur ini juga bisa diakses melalui antarmuka Sora.
Pada awal peluncurannya, OpenAI mengumumkan bahwa fitur ini tersedia untuk semua pengguna, termasuk yang gratis. Namun, sehari setelahnya, CEO OpenAI, Sam Altman, menyatakan bahwa fitur ini akan ditunda sementara untuk pengguna gratis. Setelah satu minggu, fitur ini akhirnya kembali dibuka untuk semua.
Namun, ada satu trik penting agar bisa menggunakan GPT-4o:
- Jika hanya mengetik, “Buat gambar XYZ”, sistem masih menggunakan DALL-E lama, yang kualitasnya lebih rendah.
- Untuk memastikan gambar dibuat dengan GPT-4o, ketik “/create image” sebelum memasukkan deskripsi gambar.
Meski tersedia secara gratis, ada batasan jumlah penggunaan:
- Pengguna gratis hanya bisa membuat tiga gambar per hari.
- Pengguna ChatGPT Plus mendapatkan akses lebih luas tanpa batasan yang sama.
Dari segi hasil, gambar yang dihasilkan memiliki detail yang tajam, tekstur yang lebih baik, dan akurasi tinggi, bahkan dalam menampilkan teks—yang selama ini menjadi tantangan bagi model AI lainnya. Proses pembuatannya memakan waktu kurang dari satu menit, sedikit lebih lama dibandingkan sebelumnya, tetapi hasilnya sepadan.
Sebagai contoh, saya mencoba beberapa prompt berikut:
“Bisa buat gambar realistis seekor anjing memakai jas di jalanan dengan rasio 16:9?”
“Bisa buat gambar realistis bunglon dari dekat, seperti foto di National Geographic, dengan rasio 16:9?”
“Bisa buat gambar laptop terbuka di meja dengan teks di layar: ‘Model ini sangat bagus hingga bisa menampilkan teks dan tangan dengan benar, yang biasanya menjadi tantangan besar bagi AI’, serta tangan sedang mengetik di keyboard?”
“Bisa buat foto realistis seorang wanita di tengah keramaian Times Square, tersenyum ke arah kamera, dengan kualitas seperti foto dari DSLR?”
Semua gambar yang dihasilkan memiliki kualitas yang sangat baik dan sesuai dengan deskripsi yang diberikan. Untuk benar-benar menguji kemampuannya, saya membandingkan hasil gambar dari GPT-4o dengan Midjourney, Google Imagen 3, dan Adobe Firefly.
Hasilnya membuktikan bahwa GPT-4o kini dapat bersaing dengan model terbaik di pasaran, menawarkan kualitas yang tinggi dengan kemudahan akses langsung di ChatGPT.