GPT-5.5 matches heavily hyped Mythos Preview in new cybersecurity tests

Model AI OpenAI GPT-5.5 Tunjukkan Kemampuan Mengesankan dalam Uji Keamanan Siber

Baru-baru ini, Anthropic membuat heboh dengan mengenalkan model Mythos Preview yang diklaim memiliki ancaman keamanan siber yang sangat besar, sehingga perusahaan ini membatasi rilis awal hanya untuk "mitra industri kritis". Namun, penelitian baru dari AI Security Institute (AISI) di Inggris menunjukkan bahwa model GPT-5.5 dari OpenAI, yang diluncurkan secara publik minggu lalu, telah mencapai "tingkat kinerja yang serupa" dengan Mythos Preview dalam uji keamanan siber.

Uji Keamanan Siber dengan Capture the Flag

Sejak 2023, AISI telah menjalankan berbagai model AI canggih melalui 95 tantangan Capture the Flag yang dirancang untuk menguji kemampuan dalam tugas keamanan siber, seperti reverse engineering, exploitasi web, dan kriptografi. Pada tugas "Expert" tingkat tertinggi, GPT-5.5 berhasil melewati rata-rata 71,4%, sedikit lebih tinggi dari 68,6% yang dicapai oleh Mythos Preview (meskipun masih dalam batas kesalahan). Dalam satu tugas yang sangat sulit yang melibatkan pembuatan disassembler untuk mendekodekan binary Rust, AISI mencatat bahwa "GPT-5.5 berhasil menyelesaikan tantangan dalam 10 menit dan 22 detik tanpa bantuan manusia dengan biaya $1,73" dalam panggilan API.

GPT-5.5 juga mencapai kemajuan yang serupa dengan Mythos Preview dalam "The Last Ones" (TLO), sebuah rangkaian uji AISI yang dirancang untuk mensimulasikan serangan ekstraksi data 32-langkah pada jaringan perusahaan. GPT-5.5 berhasil dalam 3 dari 10 upaya pada TLO, dibandingkan dengan 2 dari 10 untuk Mythos Preview—tidak ada model sebelumnya yang pernah berhasil dalam uji ini bahkan sekali. Namun, GPT-5.5 masih gagal dalam uji "Cooling Tower" yang lebih sulit, yaitu simulasi gangguan perangkat lunak kontrol pembangkit listrik, seperti model AI sebelumnya yang juga gagal.

GPT-5.5 matches heavily hyped Mythos Preview in new cybersecurity tests

Model AI OpenAI GPT-5.5 Tunjukkan Kemampuan Mengesankan dalam Uji Keamanan Siber

Uji Keamanan Siber dengan Capture the Flag

Meta Gunakan Data Klik dan Ketikan Karyawan untuk Mengembangkan AI

Intel’s comeback story is even wilder than it seems

Prime Video is adding a TikTok-like feed