Gangguan Internet Global! Cloudflare Sebut File Terlalu Besar

Gangguan Internet Global: Kegagalan Cloudflare yang Mengguncang Dunia

Pada Selasa, 18 November 2025, jutaan pengguna internet di seluruh dunia mengalami kebingungan ketika situs web yang biasa mereka akses tiba-tiba tidak bisa diakses. Layar berputar tanpa akhir, aplikasi musik seperti Spotify berhenti bekerja, layanan AI terganggu, dan bahkan platform media sosial para pejabat juga ikut terkena dampaknya. Ini adalah contoh dari gangguan global yang disebabkan oleh kesalahan kecil dalam sistem infrastruktur internet.

Di balik layar, perusahaan besar Cloudflare—yang menopang sebagian besar lalu lintas web dunia—mengalami kegagalan konfigurasi yang memicu efek domino. Dalam hitungan menit, dunia diingatkan bahwa jantung internet modern sangat rentan terhadap masalah teknis kecil. Perusahaan ini menyatakan bahwa pada pukul 11:20 UTC, jaringan Cloudflare mengalami kegagalan signifikan dalam mengirimkan lalu lintas jaringan inti. Akibatnya, pengguna internet yang mencoba mengakses situs pelanggan Cloudflare mendapatkan halaman kesalahan yang menunjukkan kegagalan dalam jaringan Cloudflare.

Bukan Serangan Siber

Menurut Cloudflare, penyebab utamanya bukanlah serangan siber atau sabotase. Kesalahan terjadi karena sebuah berkas konfigurasi yang “tumbuh lebih besar dari seharusnya,” memicu bug yang membuat sistem penanganan traffic lumpuh seketika. Sebuah kesalahan kecil dalam mekanisme raksasa—lalu kejatuhannya merambat ke setiap cabang yang bergantung padanya.

Dane Knecht, CTO Cloudflare, menulis di X dengan nada getir: sebuah pembaruan rutin menyebabkan crash yang kemudian merembet ke jaringan dan layanan lain. “Saya tahu ini menyebabkan kesulitan hari ini,” tulisnya. “Kami akan memastikan ini tidak terulang.”

Tidak Hanya Cloudflare

Cloudflare bukan satu-satunya yang tersandung belakangan ini. Sebulan sebelumnya, Amazon Web Services sempat membuat jutaan pengguna tak bisa memesan kopi, membuka aplikasi rumah pintar, atau mengakses layanan perusahaan. Bug sederhana—dua sistem otomatis memodifikasi data secara bersamaan—berujung pada kegagalan global. Beberapa hari setelahnya, Microsoft Azure pun bernasib sama.

Para ahli mengatakan: kita memang hidup pada era seperti ini. Dunia makin bergantung pada platform digital, sementara tulang punggung internet dikuasai hanya oleh segelintir raksasa. Ketika satu di antaranya tergelincir, jutaan orang langsung terjatuh bersamanya.

Eileen Haggerty dari Netscout menyebut gangguan seperti ini “amat umum,” sekalipun terjadi pada perusahaan dengan teknologi terbaik. Dua dekade lalu, kata Mike Chapple, profesor TI di University of Notre Dame, outage kecil adalah keseharian. Bedanya, sekarang seluruh dunia bertumpu pada penyedia yang sama; ketika satu pilar goyah, seluruh gedung ikut berderak.

Data yang Membuktikan

Data dari Downdetector memperkuatnya: lebih dari 2,1 juta laporan kegagalan layanan masuk dalam satu hari. Cloudflare sendiri menangani rata-rata 81 juta permintaan HTTP setiap detik—volume yang membuat kerusakan terkecil pun menyentuh skala global.

Cisco ThousandEyes mencatat ada 12 gangguan besar sepanjang 2025, tak jauh berbeda dari tahun-tahun sebelumnya. Jumlahnya mungkin tidak melonjak, tetapi dampaknya terasa lebih luas karena semakin banyak aplikasi, perusahaan, dan rumah tangga yang terkoneksi dan saling bertaut.

Penjelasan dari Cloudflare

Cloudflare menjelaskan bahwa halaman kesalahan HTTP ditampilkan selama insiden. “Masalah ini tidak disebabkan, secara langsung maupun tidak langsung, oleh serangan siber atau aktivitas berbahaya apa pun. Sebaliknya, masalah ini dipicu oleh perubahan pada salah satu izin sistem basis data kami yang menyebabkan basis data mengeluarkan beberapa entri ke dalam ‘file fitur’ yang digunakan oleh sistem Manajemen Bot kami.”

File fitur tersebut kemudian menjadi dua kali lipat ukurannya. File fitur yang lebih besar dari yang diperkirakan kemudian disebarkan ke semua mesin yang membentuk jaringan kami. Perangkat lunak yang berjalan pada mesin-mesin ini untuk merutekan lalu lintas di jaringan kami membaca berkas fitur ini agar sistem Manajemen Bot kami selalu terbarui dengan ancaman yang terus berubah. Perangkat lunak tersebut memiliki batasan ukuran berkas fitur yang kurang dari dua kali lipat ukurannya. Hal ini menyebabkan perangkat lunak tersebut gagal.

Setelah awalnya mereka salah menduga gejala yang dilihat disebabkan oleh serangan DDoS skala besar, mereka dengan tepat mengidentifikasi masalah inti dan dapat menghentikan penyebaran berkas fitur yang lebih besar dari perkiraan tersebut serta menggantinya dengan versi berkas yang lebih lama.

“Kami mohon maaf atas dampaknya bagi pelanggan kami dan internet secara umum. Mengingat pentingnya Cloudflare dalam ekosistem internet, setiap penghentian sistem kami tidak dapat diterima. Adanya periode waktu di mana jaringan kami tidak dapat merutekan lalu lintas sangat menyakitkan bagi setiap anggota tim kami. Kami tahu kami mengecewakan Anda hari ini,” tulis Cloudflare.

Apa yang Sebenarnya Terjadi?

Cloudflare menyatakan bahwa volume sebelum pukul 11:20 adalah nilai dasar yang diharapkan untuk kesalahan 5xx yang diamati di seluruh jaringan mereka. “Lonjakan, dan fluktuasi selanjutnya, menunjukkan sistem kami gagal karena memuat berkas fitur yang salah. Yang perlu diperhatikan adalah sistem kami kemudian akan pulih untuk sementara waktu. Ini adalah perilaku yang sangat tidak biasa untuk sebuah kesalahan internal.”

Penjelasannya adalah bahwa berkas tersebut dihasilkan setiap lima menit oleh kueri yang berjalan di kluster basis data ClickHouse, yang diperbarui secara bertahap untuk meningkatkan manajemen izin. Data buruk hanya dihasilkan jika kueri dijalankan pada bagian kluster yang telah diperbarui. Akibatnya, setiap lima menit ada kemungkinan kumpulan berkas konfigurasi yang baik atau buruk dihasilkan dan disebarkan dengan cepat ke seluruh jaringan.

Fluktuasi ini membuat Cloudflare tidak memehami jelas apa yang terjadi karena seluruh sistem akan pulih dan kemudian gagal lagi karena terkadang berkas konfigurasi yang baik, terkadang buruk didistribusikan ke jaringan kami.

“Awalnya, hal ini membuat kami percaya bahwa ini mungkin disebabkan oleh serangan. Akhirnya, setiap node ClickHouse menghasilkan berkas konfigurasi yang buruk dan fluktuasi stabil dalam status gagal.”

Kesalahan berlanjut hingga masalah yang mendasarinya diidentifikasi dan diselesaikan mulai pukul 14:30. “Kami memecahkan masalah dengan menghentikan pembuatan dan penyebaran berkas fitur yang buruk dan secara manual memasukkan berkas yang diketahui baik ke dalam antrean distribusi berkas fitur. Kemudian, memaksa restart proksi inti kami.”

Pada akhirnya, seperti dikatakan Haggerty, tidak ada perusahaan yang kebal. “Ini bukan hal yang bisa kita bilang, ‘Syukurlah itu tidak akan terjadi pada kami,’” ujarnya. “Semua organisasi rentan mengalaminya.”

Di tengah dunia yang semakin bergantung pada internet untuk urusan paling sederhana sekalipun, gangguan demi gangguan ini menjadi pengingat bahwa teknologi—betapapun canggihnya—tetap rapuh. Dan saat satu benang terputus dari jaring raksasa bernama internet, kita semua bisa merasa tersesat di ruang sunyi yang tak terduga.

Denis

Seorang jurnalis digital yang terbiasa bekerja cepat dalam merangkum informasi penting menjadi berita yang mudah dipahami. Ia aktif menulis tentang gaya hidup, komunitas kreatif, dan isu keseharian. Hobi memasak dan mencoba resep baru membuatnya semakin peka pada detail. Motto: "Menulis adalah seni memahami manusia.