掃碼登錄
誰能想到," 崩 " 也成了一種上熱搜的新姿勢。回顧 2024 年,微軟、騰訊云、支付寶、美團、阿里云、微軟、百度地圖、網易云音樂等多家頭部互聯網企業相繼發生 App 崩潰事件,引發網友熱議。
美團崩了,外賣點不了;百度地圖崩了,導航面臨挑戰;微軟藍屏故障,很多人工作直接受影響……不少人從這一次次的系統故障中深刻體會到,互聯網對生活工作的影響無處不在,認清網絡安全之重要。
我們梳理了 2024 年至今影響范圍較大的十起互聯網宕機事件,并按照對人們的影響將它們分為五個級別,從輕到重進行了排列。
五星:全球性事件
四星:國內,影響 B 端
三星:國內,影響 C 端,工作相關
兩星:國內,影響 C 端,生活必備
一星:國內,影響 C 端,非必須
下面,我們就一起看看這些宕機事件的 " 名場面 ",以及背后的原因都是什么。
網易云音樂半年崩兩次 音樂播放等異常
時間:2024 年 8 月
評級:
8 月 19 日,不少網友反映,網易云音樂頁面出現 " 服務器發生錯誤 ",音樂播放、加載等均出現異常。隨后," 網易云音樂崩了 " 登上微博熱搜。
此次故障持續時間近兩個小時,期間有傳言稱,故障因 " 網易云音樂開發者刪庫跑路 "。對此,網易云音樂官微回應稱,沒有刪庫,沒有跑路,因基礎設施故障,導致網易云音樂各端無法正常使用。
值得一提的是,今年 3 月,網易云音樂也曾因系統故障登上熱搜。彼時,網易云音樂登陸狀態失效,需要重新登錄。網易云音樂客服回應稱,登陸情況異常是網絡異常導致,與版本更新無關,故障在一段時間后修復。
中國移動系統故障 用戶無法登陸
時間:2024 年 10 月
評級:
10 月 21 日,多位中國移動用戶反映,中國移動客戶端和官網等無法登陸,充值等業務無法辦理。
當晚,中國移動廣東公司官微發文回應稱,10 月 21 日 15:47 起,中國移動廣東公司陸續接到客戶反映,官方 App 無法登錄、充值等業務無法辦理。技術部門迅速開展故障排查,發現負載均衡設備異常,導致業務系統不穩定。經過緊急處置,系統服務已于 17:06 全面恢復。
百度地圖短暫崩潰 定位出現錯誤
8 月 7 日,百度地圖因為系統問題崩上熱搜。當天中午,有網友在社交平臺反映,百度地圖出現自駕路線無法正常規劃、定位錯誤等問題。緊接著," 百度地圖崩了 " 登上微博熱搜。
百度地圖客服對此回應稱,目前百度地圖系統確實出現錯誤,服務器正在緊急修復中。當天下午,相關問題已修復。
美團 APP 因系統升級崩了 外賣服務無法使用
時間:2024 年 4 月
4 月 26 日,有網友在社交平臺表示,美團 APP 崩了,主頁面無法加載,外賣等服務無法使用。
對此,美團官方客服表示,目前系統正在升級,可能導致部分用戶的主頁面無法加載,已在緊急處理。等系統升級后,就會自動恢復正常。
雙 11 支付寶崩了 無法正常支付
時間:2024 年 11 月
在雙 11 大促即將收官之時,支付寶又崩了。11 月 11 日,不少網友表示遭遇支付寶異常無法付款,付款時顯示 " 重復扣款 "" 支付失敗 " " 服務異常 " 等。還有網友稱,支付寶出現余額寶提現未到賬、花唄還款扣款成功但賬單沒清等。隨后," 支付寶崩了 " 登上熱搜榜第一。
支付寶官微對此很快作出回應,稱 " 因系統消息庫出現局部故障,導致部分用戶的支付功能受到影響。該故障不會影響用戶的資金安全,截止上午 10 點 50 分故障已經修復。"
4 月 9 日," 支付寶崩了 " 也曾登上微博熱搜,部分網友反映支付寶無法使用,用不了螞蟻森林等功能。對此,支付寶客服表示,今日確有系統異常報錯,少量用戶訪問部分頁面時出現了短暫性的訪問不暢。這一情況已經快速恢復,用戶的資金和信息安全都不受影響,各項功能也都可以正常使用。
大周一 企業微信文檔崩了
時間:2024 年 12 月
評級:
12 月 2 日上午,不少著急開例會的網友反映,企業微信文檔崩了,頁面打不開,多項功能無法使用。
隨后,企業微信文檔官微發文稱," 因訪問激增,部分企業微信文檔出現文檔打開異常,目前已完成修復。"
WPS 三個月崩了四次 在線文檔無法使用
時間:2024 年 9 月
9 月 6 日,"WPS 崩了 " 再度沖上熱搜。大量網友反饋 WPS 出現在線文檔無法打開的故障。而這已經是該應用三個月內第四次宕機。
8 月 21 日 WPS 就因發生服務異常而引發熱議。當天下午,WPS 客戶服務官微回應:經緊急修復,WPS 服務已恢復。作為補償,8 月 22 日 0 點 -24 點,所有用戶可以免費領取 15 天會員。
7 月 8 日上午,"WPS 崩了 " 也曾沖上熱搜。隨后,WPS 客戶服務致歉稱," 因服務異常給大家添麻煩了,大家反饋的問題我們在火速排查并修復,服務已恢復正常。"
另外,在 6 月 28 日下午,也有不少網友反映 "WPS 崩了 ",金山文檔打不開。金山辦公當時向媒體回應稱,崩潰原因或與云服務異常有關。
阿里云服務器故障 小紅書、B 站崩上熱搜
時間:2024 年 7 月
評級:
在數字化時代,云服務被廣泛應用,涉及眾多企業和個人用戶。因此,云服務宕機的影響輻射范圍往往也更廣。
7 月 2 日,"B 站崩了 "" 小紅書崩了 "" 戀與深空崩了 "" 酷安都崩了 " 等多個詞條登上微博熱搜。不少網友反饋稱,B 站視頻評論區及個人主頁無法正常加載,瀏覽歷史、消息界面、客服界面等均出現訪問故障。小紅書等應用也都出現網絡異常問題。隨后,有消息稱,此番連鎖故障與服務商阿里云有關。
同日,阿里云客服向媒體回應稱,上海地域可用區 N 網絡訪問出現異常,經過處理現已恢復,但 B 站服務器不是阿里云的。
據了解,阿里云在近幾年曾多次出現服務故障。2023 年 11 月,阿里云產品控制臺訪問及 API 調用出現使用異常,導致 " 淘寶又崩了 "" 閑魚崩了 "" 釘釘崩了 " 等話題相繼登上微博熱搜。2022 年 12 月,阿里云爆發香港 Region 可用區 C 大規模服務中斷事件,導致多個香港及澳門站點受到影響。
今年以來,B 站也曾多次服務器崩潰,用戶無法正常訪問,此前官方解釋因服務器負載過高。
騰訊云服務器故障 1957 個客戶報障
4 月 8 日," 騰訊云崩了 " 沖上熱搜。不少網友反饋稱,騰訊云出現服務故障,網頁顯示 504 錯誤,服務器網絡連接不上,控制臺無法訪問。
當天下午 4 點 45 分,騰訊云官微回應稱,官網控制臺相關服務出現異常,工程師緊急修復中,部分地區已恢復。下午 5 點 16 分,騰訊云在微博稱 " 整體已恢復 "。
4 月 14 日,針對此次故障,騰訊云官方發布復盤及情況說明。說明顯示,此次故障一共持續了近 87 分鐘,期間共有 1957 個客戶報障。云 API 異常導致控制臺登陸不上,而依賴云 API 提供產品能力的部分公有云服務,也因為云 API 的異常出現了無法使用的情況,比如云函數、文字識別、微服務平臺、音頻內容安全、驗證碼等。
騰訊云表示,此次故障最根本的原因,是在版本變更過程中,沒有有效執行沙箱驗證和預案演練,暴露了在變更管理上的不足,接下來將從提升系統韌性、強化變更管理與保護措施、增強故障響應與溝通能力等幾個方面快速進行改進和完善,以減少故障的影響范圍和影響時長。
微軟藍屏,一樁全球 IT 災難級事件
時間:2024 年 7 月
評級:
微軟藍屏故障,可謂今年內影響范圍最廣、損失最大的一起宕機事件,波及至少 20 多個國家,被認為是一樁全球 IT 災難級事件。
7 月 19 日,全球約 850 萬臺裝有 Windows 操作系統的計算機出現 " 藍屏 " 死機現象,出現故障的終端并不限于桌面終端,還覆蓋了大量的服務器和云節點,而且相關主機重新啟動后依然會自動進入藍屏狀態,反復崩潰。緊接著," 微軟藍屏 " 登上微博熱搜。
由于微軟藍屏故障,美國、英國、德國、荷蘭、西班牙、波蘭、比利時等 10 多個國家的部分機場、車站、碼頭及媒體、電信、銀行等行業的運營受到影響。另外,多國的石油、天然氣、電力、股票、貨幣和債券交易商都在 19 日當天難以正常展開交易。
而導致這一歷史事件的主角是美國網絡安全企業 CrowdStrike。CrowdStrike 的一個錯誤更新導致受影響的電腦和服務器無法正常啟動,迫使它們陷入了恢復啟動循環。CrowdStrike 在全球范圍內被廣泛用于管理 Windows PC 和服務器的安全。
值得一提的是,在此次全球微軟藍屏事件中,國內企業受到的沖擊很小。因為 CrowdStrike 是個典型的 B2B 企業,其安全控制軟件多部署在企業環境中,個人家庭電腦此次受影響很小,國內受到波及的主要是少數使用 CrowdStrike 軟件的外企。
寫在最后:
過去一年,互聯網應用宕機事件幾乎每個月都有發生,雖然大多都在 2 個小時左右的時間修復,但還是給用戶的生活和工作造成不便。而網友在吐槽應用崩潰導致的糟糕使用體驗之余,更是將宕機事件與各個大廠的裁員行為聯系了起來,認為 " 大廠裁員裁到大動脈 ",波及到了相關技術、運維團隊的正常運作。
不過,這種言論也僅僅是網友的調侃或猜測,真實原因難以考究。理論上來說,一個成熟的互聯網公司,邊緣業務可能會因為人才流失受到影響,核心業務基本不可能,大規模宕機事件更多是技術層面的問題。
比如上文提到的,支付寶、百度地圖、網易云音樂、美團短暫崩潰都是因為系統故障或升級引起的,阿里云服務器故障是因為上海地域可用區 N 網絡訪問出現異常,微軟藍屏事件是第三方安全軟件的鍋,騰訊云崩潰則暴露了在變更管理上的不足。
隨著互聯網應用發展愈加成熟,硬件安全早已不成問題,但技術系統軟環境的安全仍有待完善。互聯網企業尤其是頭部企業,除了分析總結宕機原因,還應對系統架構進行優化,比如增強服務器的冗余設計,定期進行系統測試和演練等。
此外,各類應用交替出現故障,考驗平臺基礎設施、技術能力和修復速度的同時,如何做好用戶運營亦受到關注。平臺通過官方渠道及時告知用戶問題和大致恢復時間,避免用戶產生誤解和恐慌。像 WPS、網易云音樂那樣給用戶補償會員也是一種方法。
最后,作為用戶,衷心希望各大廠商能夠筑牢網絡安全 " 防火墻 ",宕機事件不再頻繁上演。