Google Rilis Gemini 2.5 Computer Use: AI Yang Bisa Operasikan Komputer Sendiri
Kompas - Lo Pernah Ngebayangin Nggak, Ada AI Yang Literally Bisa Ngoperasiin Komputer Lo Sendiri — Kayak Klik, Scroll, Sampai Isi Form Tanpa Lo Gerak Sama Sekali? Nah, Google Baru Aja Nge-Drop Teknologi Baru Bernama Gemini 2.5 Computer Use, Dan Ini Bukan Cuma AI Biasa. Ini Next-Level Banget.
Gemini 2.5 Computer
Use Basically
Adalah Sistem AI Yang Bisa Ngontrol Komputer Kayak Manusia. Nggak Cuma
Jawab Pertanyaan, Tapi Juga Bisa Ngelakuin Tindakan Di Browser — Misalnya Buka
Situs, Isi Formulir, Bahkan Ngeklik Tombol Tertentu. Dengan Kata Lain, Ini
Kayak Lo Punya Asisten Digital Superpintar Yang Ngerti Cara Mainin Laptop Lo.
Artikel Ini
Bakal Bahas Tuntas Who, How, Why Dari Rilis Ini — Siapa Yang Bisa Make Gemini
2.5, Gimana Dia Bekerja, Dan Kenapa Langkah Google Ini Penting Banget Buat Masa
Depan AI Dan Dunia Digital. Let’s Dive In.
Siapa “Who” Di Balik Gemini 2.5 Computer Use?
Oke, Jadi
Yang Pertama Harus Kita Kenal: Siapa Dalang Di Balik Semua Keajaiban Ini? Jawabannya
Jelas — Google Deepmind, Tim Yang Juga Ada Di Balik Gebrakan Besar Kayak
Alphafold Dan Gemini Pro.
Gemini 2.5 Computer
Use Ini Diluncurin Sebagai Bagian Dari Ekosistem Gemini AI Di Bawah Google.
Untuk Sekarang, Aksesnya Masih Terbatas — Cuma Buat Developer Dan Partner Yang
Punya Izin Early Access Lewat Vertex AI Atau AI Studio. Tapi
Google Bilang Ke Depannya Bakal Dibuka Buat Publik Lewat API.
So Basically,
Yang Bisa “Mainan” Gemini 2.5 Sekarang Adalah Developer Dan Perusahaan Yang Pengen
Otomatisasi Kerja Mereka Lewat AI. Contohnya: QA Tester, Data Entry Operator,
Atau Bahkan Digital Marketer Yang Pengen Task-Nya Dikerjain AI. Sounds Crazy? Wait
Till You See How It Works.
Apa Itu Gemini 2.5 Computer Use — Fitur & Kapasitasnya
Nah, Biar
Makin Kebayang, Gemini 2.5 Ini Bukan Kayak Chatgpt Biasa Yang Cuma Ngebales
Teks. Ini Literally Bisa “Ngeliat” Tampilan Komputer Lo (Lewat Screenshot),
Terus Nentuin Aksi Apa Yang Harus Diambil.
Misalnya Lo
Suruh Dia, “Buka Gmail Dan Kirim Email Ke Klien,” Dia Bakal:
- Buka Browser.
- Navigasi Ke Gmail.
- Klik “Compose”.
- Ketik Emailnya.
- Klik “Send”.
Yes, Semua
Dilakukan Secara Otomatis — Kayak Ada Manusia Di Depan Layar.
Tapi Buat
Sekarang, Fungsinya Masih Fokus Di Browser Dan Aplikasi Berbasis Web. Jadi Belum
Bisa “Ngontrol” Full Desktop OS Kayak Windows Atau Macos. Google Bilang Ini
Biar Lebih Aman, Karena Kalau Dilepas Bebas, Bisa Chaos Banget.
Pernyataan Resmi & Peluncuran Gemini 2.5 Computer
Use
Waktu Pengumuman
Resminya, Google Nulis Di Blog Mereka Kalau Computer Use Ini Adalah
Langkah Awal Menuju Era “AI Agent Yang Benar-Benar Independen”. Jadi Bukan Cuma
Model Yang Ngerti Bahasa, Tapi Juga Bisa Berinteraksi Dengan Dunia Digital.
Di Fase
Awal, Gemini 2.5 Computer Use Bakal Hadir Di Gemini API Dan Vertex AI.
Ada Juga Demo Publik Lewat Browserbase, Di Mana AI Bisa Ngelakuin Task
Visual Berbasis Web.
Google Menekankan
Bahwa Mereka Udah Nyiapin Lapisan Keamanan Dan Izin Yang Ketat. Jadi Kalau AI Mau
Ngelakuin Tindakan Berisiko — Kayak Klik Tombol “Beli” Atau “Hapus” — Sistem
Bakal Minta Konfirmasi Pengguna Dulu.
Alasan “Why” — Kenapa Google Kembangkan AI Yang Bisa Operasikan Komputer Sendiri?
Sekarang Kita
Ngomongin “Kenapa”. Jawaban Pendeknya: Karena Dunia Digital Makin Ribet, Dan
Nggak Semua Hal Bisa Diakses Lewat API.
Contohnya,
Banyak Website Atau Software Yang Cuma Bisa Dijalankan Lewat Klik Manual. Nah, Gemini
2.5 Ini Dirancang Buat Fill That Gap. Jadi AI Bisa Bantu Manusia Di
Level GUI — Bukan Cuma Lewat Backend Atau Data.
Selain Itu,
Teknologi Ini Juga Ngejawab Kebutuhan Perusahaan Buat Efisiensi Kerja. Bayangin
Aja, Kalau AI Bisa Handle 70% Task Harian Lo — Dari Isi Form, Testing Website,
Sampai Follow-Up Email — Manusia Bisa Fokus Ke Hal Yang Lebih Strategis.
Dan Yes, Ini
Juga Bagian Dari Strategi Google Buat Ngelawan Kompetitor Kayak Openai (Yang
Lagi Nge-Develop Chatgpt Agents), Anthropic (Claude), Dan Xai-Nya Elon Musk. Jadi
Bukan Cuma Soal Inovasi, Tapi Juga Soal Positioning Di Perang AI Global.
Mekanisme “How” — Cara Kerja Gemini 2.5 Computer Use
Biar Nggak
Bingung, Gini Cara Kerja Teknologinya:
- Lo Kasih Perintah Teks Ke Gemini, Misalnya “Isi Form
Pendaftaran Di Situs A”.
- Gemini Bakal Capture
Tampilan Layar (Screenshot).
- Sistem AI-Nya Analisis Visual
Tampilan Itu — Tombol Mana, Field Mana, Isi Apa.
- Gemini Generate Rencana Aksi
(Action Plan): Klik Di Sini, Ketik Di Sana, Scroll Ke Bawah.
- Sistem Eksekusi Otomatis
Aksinya.
- Kalau Ada Error, Dia Belajar
Dari Hasilnya Dan Nyoba Lagi.
Teknologi Ini
Ngandelin Visual Reasoning Dan Multimodal Understanding — Jadi
Dia Nggak Cuma Baca Teks, Tapi Juga “Ngerti Konteks Visual”.
Dan Biar
Aman, Setiap Tindakan Tertentu Butuh Verifikasi Manual User Dulu. Google Juga
Nyiptain Sistem Audit Log, Biar Semua Aksi AI Bisa Dilacak.
Implikasi & Dampak Gemini 2.5 Computer Use Ke Dunia Teknologi
Kehadiran AI
Yang Bisa Operasikan Komputer Sendiri Ini Jelas Bakal Jadi Game Changer. Misalnya:
- Testing Software & Website Bisa Full Otomatis.
- Customer Service Bot Bisa Buka Dashboard CRM Dan
Ngerespon Langsung.
- Data Entry? Done By AI Dalam Hitungan
Detik.
Tapi Di Sisi
Lain, Muncul Juga Tantangan Baru:
- Kalau AI Bisa “Klik” Dan “Beli”
Sendiri, Apa Nggak Bahaya Kalau Disalahgunakan?
- Gimana Kalau AI Salah
Interpretasi Tampilan Dan Malah Klik Tombol “Hapus”?
- Dan Tentu Aja, Gimana Cara
Ngejaga Data Sensitif Biar Nggak Bocor?
Google Sadar
Banget Sama Ini. Makanya Mereka Bikin Sistem Kontrol, Kayak Konfirmasi Aksi
Berisiko, Sandbox Environment, Dan Pembatasan Akses. Jadi Walaupun AI Powerful,
Tetep Ada Pengawasan Manusia Di Loop-Nya.
Perbandingan Dengan AI Agent Lain
Kalau Dibandingin
Sama Chatgpt Agent Atau Claude.Ai, Gemini 2.5 Punya Satu Keunggulan Unik: Kontrol
UI Yang Real.
Kalau Chatgpt
Agent Lebih Fokus Ke Task Berbasis API Dan File, Gemini Bisa Literally “Main Di
Browser” Kayak Manusia. Ini Bikin Dia Lebih Fleksibel Buat Automasi Harian.
Tapi Ya,
Tentu Aja Masih Ada Batasan. Chatgpt Agent Bisa Running Task Di Sistem Operasi
Lokal (Dengan Izin), Sedangkan Gemini Masih Stay Di Level Browser. Tapi Kalau
Lihat Roadmap-Nya, Bukan Nggak Mungkin Nanti Dia Bisa “Naik Level”.
Tantangan & Risiko Yang Harus Dijaga
Sekuat Apa
Pun AI, Pasti Ada Risiko. Salah Satunya Adalah Over-Automation. Kalau Sistem
Terlalu Percaya Diri, Bisa Bikin Keputusan Tanpa Kontrol Manusia.
Selain Itu,
Ada Juga Isu Keamanan — Terutama Prompt Injection Dan Akses UI Berbahaya.
Misalnya, Website Jahat Bisa Bikin Elemen “Palsu” Yang Bikin AI Salah Klik. Itu
Sebabnya, Google Ngembangin Model Validasi Dan Sandbox Khusus Biar Interaksi
Tetap Aman.
Dan Jangan
Lupa Faktor Etika. Kalau AI Bisa Ngoperasiin Komputer, Berarti Dia Juga Bisa
Lihat Data Sensitif. Maka, Regulasi Dan Transparansi Jadi Kunci Utama Ke
Depannya.
Kesimpulan & Pandangan Ke Depan
Singkatnya, Gemini
2.5 Computer Use Ini Bukan Cuma Pembaruan, Tapi Revolusi Cara Manusia Dan
Mesin Berinteraksi.
Google Jelas
Lagi Push Batas Teknologi — Bikin AI Yang Nggak Cuma Mikir, Tapi Juga
Bertindak. Buat Sekarang, Sistem Ini Masih Aman Karena Diatur Ketat. Tapi Di
Masa Depan, Bayangin Aja Kalau AI Bisa Bantu Kerja Lo Dari A Sampai Z Cuma
Dengan Instruksi Suara.
Dengan Kemampuan
Visual Reasoning Dan Kontrol GUI, Gemini 2.5 Ngebuka Bab Baru Buat Dunia AI. Tapi
Kayak Semua Inovasi Besar, Ini Juga Butuh Tanggung Jawab. AI Harus Tetap Jadi
Partner, Bukan Pengganti Manusia.