เรื่องเล่าจาก CAT ไฟดับ เมื่อวันที่ 30 พฤศจิกายน 2556

เพิ่งจะว่างๆ นั่งเคลียร์สมองเพื่อมาเล่าเหตุการณ์แบบสรุปๆ ให้ได้อ่านกัน

อ่านข้อมูลเพิ่มเติมเรื่องนี้ได้ที่ ทำไมตึก กสท บางรัก ไฟดับแล้วทำให้ระบบเน็ตป่วนทั้งประเทศ เป็นข้อมูลความรู้เพิ่มเติมครับ

ต้องบอกก่อนว่า ระบบที่ผมดูแลมันไม่ได้เยอะอะไรหรอก Server ยี่ห้อ Dell อยู่ 7 ตัวใน CAT บางรัก วางใน IDC เจ้าหนึ่ง ไม่ใช่เครื่องผมโดยตรง มูลค่าเครื่องทั้งหมดก็หลายแสน ระบบและข้อมูลภายในบริการลูกค้าเยอะพอตัวเลย

โดยไฟดับในวันที่ 30 พฤศจิกายน 2556 ที่ผ่านมานั้น ดับไปประมาณ 6 ชั่วโมง เสียหายไปรวมเกือบ 5 แสนบาท โดยประเมิณค่าเสียหายจาก transaction เก่าในวันเดียวกันของอาทิตย์ก่อนๆ (เก็บเงินจากใคร!!!)

WP_20131123_22_54_23_Pro

การตรวจสอบการ up/down time ของระบบที่ดูแลผมใช้แบบ International และ Domestic connection คือส่วนของ International นั้นผมใช้ uptimerobot ในการตรวจสอบการมีอยู่ของระบบจากภายนอกประเทศ ส่วน Domestic จะติดตั้งและทำงานผ่าน nagios ซึ่งทำงานภายใน local switch ที่อยู่ใน IDC เลย เพราะฉะนั้น ถ้ามีปัญหาระบบแจ้งเตือนทั้งสองจุดจะแจ้งพร้อมกัน (หรือใกล้เคียงกัน) แต่ระบบทั้ง 2 ส่วนนั้น มีการวิ่งตรวจสอบไขว่กัน เพราะระบบ nagios  ที่ติดตั้งนั้น ได้เช็คระบบที่ไว้ที่ต่างประเทศด้วย ตามแผนภาพด้านล่างด้วย

image

แต่ในวันนั้น ระบบ uptimerobot แจ้งเตือน เวลา 15:20 และค่อยๆ ไล่ส่งการแจ้งเตือนมาทุกเครื่องที่อยู่ในตึก CAT บางรัก (ส่งมาเป็นสิบฉบับเลย)

โอเค ปรกติ link ของ International ในตึก CAT บางรัก อาจมีปัญหาบ้าง เพราะผมได้แจ้งเตือนแบบนี้บ่อย เพราะ link ของ International ล่ม แต่รอบนี้แปลกมากๆ เพราะในทางกลับกัน ส่วนของ nagios  มันก็ต้องแจ้งเตือนว่า Server ที่อยู่เมืองนอกมันล่มด้วย เพราะวิ่งออกไป International ไม่ได้ แต่รอบนี้ไม่มี uptimerebot ส่งเพียงฝ่ายเดียวเท่านั้น

Uptime Robot [email protected]

ส. 30/11/2556 15:20

Hi,
The monitor xxx – HTTP (xxx)  is currently DOWN (Connection Timeout).

Uptime Robot will alert you when it is back up.

Cheers,
Uptime Robot
http://www.uptimerobot.com
http://twitter.com/uptimerobot
(sent from new engine)

เวลาประมาณ 15:25 ผมเลยกดเข้าเว็บที่ดูแลอยู่ ทุก link ทุก IP ทุก port ที่สามารถจะเข้าได้ แต่ทุกอย่างไร้การตอบสนอง…

Read more