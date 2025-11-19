Cloudflare Outage: X, ChatGPT, Canva क्यों डाउन हुआ था? कंपनी ने बताया असली कारण
Cloudflare के डेटाबेस में हुई एक गलती से बना खराब फाइल वर्ज़न, जिसने X, ChatGPT और कई साइट्स पर घंटों तक 500 errors कराए.
Published : November 19, 2025 at 6:44 PM IST
हैदराबाद: 18 नवंबर 2025, मंगलवार के दिन इंटरनेट पर अचानक एक ऐसा माहौल बन गया जैसे किसी ने पूरी दुनिया की लाइट की कट कर दी हो. X (जिसे पहले Twitter कहते थे), ChatGPT, Canva जैसे बड़े प्लेटफॉर्म एक साथ डाउन हो गए. भारत समेत दुनिया के कई देशों के यूज़र्स को इन बड़े-बड़े प्लेटफॉर्म्स को अपने डिवाइस पर खोलने पर HTTP 500 Internal Server Error दिखाई दे रहा था. पूरी दुनिया के यूज़र्स ने करीब 5 घंटों तक इस समस्या का सामना किया क्योंकि इन प्लेटफॉर्म्स की सिक्योरिटी और स्पीड को मैनेज करने वाला Cloudflare Down हो गया था. लाखों यूज़र्स कई बड़े प्लेटफॉर्म्स का एक्सेस नहीं ले पा रहे थे. इस समस्या के कुछ देर बाद Cloudflare के Co-founder और CEO Matthew Prince ने खुद आकर बताया कि असल गलती कहां हुई थी.
ब्लॉग पोस्ट में मैथ्यू प्रिंस ने बताया कि ये किसी हैकिंग, साइबरअटैक या DDOS का मामला नहीं था, बल्कि Cloudflare के ही सिस्टम के अंदर की एक छोटी-सी पर बड़ी गलती थी. क्लाउफ्लेयर के एक डेटाबेस सिस्टम में परमिशन्स से जुड़ा एक छोटा बदलाव किया गया था, जिसके कारण एक ऐसी "feature file" बनी, जिसका साइज अचानक दोगुना हो गया. ये फाइल उसकी Bot Management सिस्टम में यूज़ होती थी. ये बड़ी वाली फाइल नेटवर्क में फैल गई और जिस सॉफ्टवेयर के जरिए क्लाउडफ्लेयर वेबसाइट्स को सुरक्षित रखता है, वो उस फाइल को पढ़ नहीं पा रहा था, जिसकी वजह से पूरे नेटवर्क पर भारी-भरकम 500 errors होने लगे.
We let the Internet down today. Here’s our technical post mortem on what happened. On behalf of the entire @Cloudflare team, I’m sorry. https://t.co/uTi23Vcx0g— Matthew Prince 🌥 (@eastdakota) November 18, 2025
यह ‘खराब फाइल’ कैसे फैलती रही?
ये फाइल हर 5 मिनट में दोबारा बन रही थी.क्लाउडफ्लेयर का ClickHouse डेटाबेस क्लस्टर आधा अपडेटेड और आधा पुराना वर्ज़न था. इस वजह से कभी अच्छी फाइल बन रही थी और कभी बुरी. इस वजह से कभी-कभी नेटवर्क चल रहा था और फिर अचानक बंद हो रहा था. इसी तरह से बार-बार हो रही ऑन-ऑफ वाली प्रॉब्लम ने क्लाउडफ्लेयर की टीम को कंफ्यूज़ कर दिया कि ये DDOS अटैक है या नहीं या असल में क्या हो रहा है.
असली समस्या का पता कैसे चला?
क्लाउडफ्लेयर की टीम ने घंटों तक लगातार जांच की और फिर आखिरकार उन्हें समझ में आया कि यह कोई अटैक नहीं बल्कि उनकी ही वही वाली ‘bad configuration file’ घूम-घूमकर सिस्टम को तोड़ रही थी, जिसके कारण बार-बार कुछ वेबसाइट्स कभी चल रही थी और कभी बंद हो रही थी. इस समस्या का पता चलने के बाद क्लाउडफ्लेयर ने तीन बड़े कदम उठाए:
- बड़ी बैड फाइल्स को फैलने से रोका
- पिछले स्टेबल वर्ज़न पर रोलबैक किया
- कोर प्रॉक्सी सर्विस को रीस्टार्ट किया
क्लाउडफ्लेयर की ब्लॉग पोस्ट में लिखी रिपोर्ट के मुताबिक, भारतीय समयानुसार 18 नवंबर 2025 की रात 8:00 PM IST बजे से ट्रैफिक सामान्य होने लगा था और रात 10:36 PM IST पर क्लाउडफ्लेयर ने कहा- “We are fully recovered.” यानी हम पूरी तरह से वापस आ चुके हैं.
किन-किन सेवाओं पर असर पड़ा?
Cloudflare के कई सिस्टम एक साथ हिल गए:
|प्रभावित सर्विस
|क्या दिक्कत आई
|CDN + Security
|भारी मात्रा में 5xx errors
|Turnstile bot check
|लोड ही नहीं हो रहा था
|Workers KV
|लगातार errors आ रहे थे
|Dashboard Login
|कई यूज़र्स लॉगिन नहीं कर पा रहे थे
|Email security
|स्पैम डिटेक्शन की accuracy गिर गई
सीईओ ने मांगी माफी
क्लाउडफ्लेयर के सीईओ ने कहा, यह 2019 से क्लाउडफ्लेयर का सबसे खराब आउटेज था. हमने पहले भी आउटेज की समस्या का सामना किया है, जिसके कारण हारे डैशबोर्ड नहीं खुलते थे या कोई फीचर थोड़ी देर के लिए गायब हो जाता था, लेकिन पिछले 6-7 साल सालों में कभी ऐसा नहीं हुआ कि पूरा का पूरा बेसिक ट्रैफिक ही रुक जाए. आज यही हुआ.
उन्होंने आगे कहा, आधे से ज्यादा इंटरनेट का ट्रैफिक उनके नेटवर्क से होकर गुजरता है, वो सब थम गया था. इस तरह के आउटेज को बिल्कुल भी स्वीकार नहीं किया जा सकता है. हमने अपने सिस्टम को इस तरह से डिजाइन किया है कि अगर कोई चीज एक-दो जगहों पर फेल हो भी जाए तो बाकी सिस्टम काम करता रहे, लेकिन आज एक ऐसा बग सामने आया, जिसके कारण पूरा सिस्टम बंद हो गया लेकिन यह गलती सिस्टम को और मजबूत बनाने का सबक देगी.मैं इसके लिए क्लाउडफ्लेयर की पूरी टीम की ओर से माफी मांगता हूं.
इस पूरी घटना का क्रम - जानें किस वक्त क्या-क्या हुआ
|समय (IST)
|स्टेटस / क्या हुआ
|क्या हुआ था
|16:35 (दोपहर)
|सबकुछ नॉर्मल था
|सब नॉर्मल था, बस एक छोटा सा Database access control का चेंज डिप्लॉय किया था.
|16:58 (शाम)
|इंपैक्ट शुरू हुआ था
नया चेंज कस्टमर्स तक पहुंचा और पहली बार एरर दिखने शुरू हुए.
HTTP ट्रैफिक में दिक्कत आने लगी.
17:02 - 18:35
(शाम)
|टीम जांच-पड़ताल में लगी
टीम वाले देख रहे थे कि Workers KV नाम की सर्विस बहुत स्लो हो गई है,
इसी वजह से बाकी सर्विसेज भी लड़खड़ा रही थीं.
ट्रैफिक को कंट्रोल करने की कोशिश की, अकाउंट लिमिट लगाए, लेकिन ज्यादा फायदा नहीं हुआ.
ऑटोमेटिक अलर्ट 11:31 पर आया, मैनुअल जांच 11:32 से शुरू, इंसिडेंट कॉल 11:35 पर बना.
|18:35 (शाम)
|Workers KV और Cloudflare Access को बायपास किया – इफेक्ट कम हुआ
टीम ने इमरजेंसी में Workers KV और Access को पुराने वर्जन पर स्विच कर दिया.
पुराना वर्जन भी परफेक्ट नहीं था, पर नया वाला बहुत ज्यादा खराब था, इसलिए इफेक्ट थोड़ा कम हो गया.
|19:07 (रात)
|Bot Management की कंफिगरेशन फाइल को पुरानी वाली पर रोल-बैक करने का काम शुरू हुआ
|पता चल गया कि असली विलेन Bot Management की एक खराब कंफिगरेशन फाइल है. इसका सबसे तेज तरीका यही था कि पुरानी वाली फाइल वापस डाल दो.
|19:54 (रात)
|नई Bot Management फाइल बनाना और फैलाना पूरी तरह रोक दिया
|कन्फर्म हो गया कि 500 एरर इसी Bot Management मॉड्यूल की गलत फाइल की वजह से आ रहे थे. अब नई फाइल बननी ही बंद कर दी गई थी.
|19:54 (रात)
|पुरानी फाइल का टेस्ट पूरा
|पुरानी फाइल डालते ही सब ठीक हो गया. अब बस इसे पूरी दुनिया में जल्दी-जल्दी लगाने की तैयारी की गई.
|20:00 (रात)
|मुख्य प्रॉब्लम सॉल्व हो गई
|सही वाली Bot Management कंफिगरेशन फाइल ग्लोबली डिप्लॉय कर दी. ज्यादातर सर्विसेज वापस नॉर्मल होने लगीं.
|22:36 (रात)
|सब कुछ 100% ठीक, इम्पैट खत्म
|सारी डाउनस्ट्रीम सर्विसेज रीस्टार्ट हो गईं. पूरा इंटरनेट जो क्लाउडफ्लेयर से गुजरता था, वो वापस पूरी रफ्तार से चलने लगा.