洛杉矶机房发生火灾,DMIT LAX区域机器离线声明

laumaomao 2025-5-7 20 5/7

首先向所有受影响的 LAX 客户道歉,下面是 LAX 数据中心此次离线的一些初步调查

北京上午 7时 30 分左右,位于 LAX 的 West 7 Center 数据中心因不明原因触发火警,为保证尽量减少扩大损失,数据中心的消防系统自动启动,所有机柜的电源被切断,导致数据中心内的所有服务器和网络设备全部断电。由于数据中心内的 UPS 电池组在火警触发后也被切断电源,导致 UPS 无法正常工作。但照明电源仍然保持正常供电。

随后各方在现场做了以下工作:

  • DMIT 派遣工程师前往现场进行检查,工程师在现场闻到了不明的烟味。经过检查,我们的机柜和设备没有发现异常情况。等待数据中心恢复供电。

  • 数据中心的工程师努力排查触发火警的原因。

  • 数据中心方面尝试恢复电力供应,但是发现 UPS 无法正常工作,因此再次派遣 UPS 工程师前往现场进行检查。

截止到目前,电力供应已基本恢复。

目前所有设备正在逐渐恢复服务,接下来我们将全面检查所有设备,确保没有任何异常情况。

对于此次离线,我们深感抱歉,并感谢大家的耐心等待。具体的离线补偿措施将在随后公布和实施。我们会在后续的公告中持续更新事件进展,感谢大家的理解与支持。


后续声明:

首先向所有受影响的 LAX 客户道歉,下面是 LAX 数据中心此次离线的一些初步调查,完整的事件调查结果在数据中心向我们提供后会在英文频道中同步。

2025年5月7日北京时间上午 7 时 30 分左右,位于 LAX 的 West 7 Center 数据中心因不明原因触发火警,为保证尽量减少扩大损失,数据中心的消防系统自动启动,所有机柜的电源被切断,导致数据中心内的所有服务器和网络设备全部断电。由于数据中心内的 UPS 电池组在火警触发后也被切断电源,导致 UPS 无法正常工作。但照明电源仍然保持正常供电。

随后各方在现场做了以下工作,并在下午 12 时 20 分左右恢复了电力供应:

  • DMIT 派遣工程师前往现场进行检查,工程师在现场闻到了不明的烟味。经过检查,我们的机柜和设备没有发现异常情况。等待数据中心恢复供电。
  • 数据中心的工程师努力排查触发火警的原因,并在风险可控的范围内尽量减少影响范围尝试恢复供电。
  • 数据中心方面尝试恢复电力供应,但是发现 UPS 无法正常工作,因此再次派遣 UPS 工程师前往现场进行检查。
    • UPS 工程师到场检查并修复 UPS 系统使其工作。

电力恢复供应后,DMIT 检查了所有设备的状况,确认设备未受影响,开始陆续启动所有设备。

目前 DMIT LAX 数据中心的所有设备都已恢复服务,如果您的服务仍然无法访问,请提交工单以联系我们。

对于此次离线,我们深感抱歉,并感谢大家的耐心等待。虽然在线率仍在 SLA 补偿标定限度以上(故障时长约 5 小时左右),但是我们仍然决定为所有受影响的客户提供补偿,以下是具体补偿措施。

  • 所有受影响的 LAX 服务,基于服务续费价格补偿 5 天的价值(若计算后补偿金额低于 0.5 USD,则补偿 0.5 USD)添加到您的 DMIT 账户中。

  • 对于所有 DMIT 现有客户,增购 DMIT 所有在售的月均费用超过 3.33USD(T1系列产品不受此限制) 的产品,均可使用 2025-EXISTING-CUSTOMER-10OFF 优惠码享受 10% 的折扣,有效期至 2025 年 6 月 30 日。

优惠码使用范围及条件如下:

  • 可适用于特价产品,若有货或您有资格申请特价产品订单
  • 需要当前账户内存在有效的服务

再次感谢所有用户的长期支持,我们将持续改善服务的稳定性和可靠性。


后续补充

📢【事故通报】L1-135 电力中断事件

2025 年 5 月 6 日,我们上游数据中心合作方的 L1-135 机房发生两起电力相关事故,影响到了所有洛杉矶客户:

1️⃣ 主要故障 – 机房母线弧光爆炸
由于下游接地故障,主配电间天花板上的 4000A 母线槽发生电弧闪络爆炸,导致市电和发电机电源全部中断。机房电力在当天下午 5:33 恢复,UPS 系统于晚上 9:00 完全恢复正常运行。

2️⃣ 次要问题 – 客户设备 PDU 故障
一台 第三方客户自带 PDU(非 DMIT 设备)出现间歇性接地故障,导致 UPS 旁路模块跳闸,延缓了恢复过程。该设备已于 5 月 14 日移除。

⚠️ DMIT 立场声明:
虽然我们感谢机房方的调查,但 DMIT Cloud Service 不完全认同其结论。我们认为,单一 PDU 故障不应影响整个 UPS 系统,IDC 方应具备 更强的故障隔离机制 来避免类似问题影响整个区域。

✅ DMIT Cloud Service 后续行动:

🔁 网络架构优化: 将所有 三层网络设备迁出 W7C,确保其他机房的 IP 客户 不会因单点故障而受影响。
🧭 新增可用区: 计划于 2025 年底前在洛杉矶新增一个 独立可用区。
🔄 双可用区支持: 虚拟机客户将可选择部署在 不同可用区或启用 双可用区冗余。
🤝 与 IDC 合作优化: 正在与 IDC 方积极沟通,提升其电力系统稳定性与故障隔离能力。
感谢您的理解与信任。目前所有服务均已全面恢复并稳定运行。

事故报告下载链接:Incident Report L1-135 (05-16-2025) Update (05-26-2025)

洛杉矶机房发生火灾,DMIT LAX区域机器离线声明

- THE END -

laumaomao

6月11日13:25

1

非特殊说明,本博所有文章均为博主原创。