AWS東京リージョンの大規模障害–制御システムにバグ、「パージ」移行に失敗

Amazon Web Services(AWS)の東京リージョンで8月23日に「Elastic Compute Cloud(EC2)」サービスの障害が発生した。同社は障害の発生した経緯と現在の対応状況について明らかにしている。
AWSによると、東京リージョンの一部のEC2サーバーが停止した原因は、データセンター制御システムの障害を発端に、冷却システムの制御がうまく機能せず、サーバーの温度が許容限度を超えてしまったためだという。

今回の大規模な障害は、ファン、冷却装置、温度センサーを制御している制御システムが複数のホストで冗長構成されており、そのホスト1台を切り離した際に制御システムのバグにより異常なデータ送受信がされ、停止してしまった。本来は制御システムが停止した場合に冷却システムを最大稼働させ物理サーバが停止することを阻止するよう設計されていたが稼働しなかった。その為オペレータは手動で冷却システムを稼働させようとしたが、一部の冷却システムではPLC(プログラマブル・ロジック・コントローラー)が動作せずサーバの温度が許容限度を超え、停止してしまった。

AWSでは様々なサービスにそれぞれSLA(Service Level Agreement)が設定されている。よく使うサービスであるEC2には単体で90%、複数AZの配置で99.99%が設定されている。今回のケースは1つのAZで起こった障害であり、6時間の停止なので複数AZへの配置が行われている場合は遅くなったり、繋がりにくいという状況はあったかもしれませんが、完全に停止してしまったわけでもないのでSLA範囲内といえるかもしれない。

引用:https://japan.zdnet.com/article/35141745/

─ YODOQの見方───────────────────────────

PLC(プログラマブル・ロジック・コントローラー)とは、シーケンサともいわれる機器であり、世界シェア:1位シーメンス(33.6%) 2位Rockwell(20.8%) 3位三菱電機(13.7%)となっており、日本では50%くらいが三菱電機である。その為、三菱電機の商品名であるシーケンサーという名称がPLCの総称として語られることが多い。

どのような働きをするものかはあまり知られていないが、機械・設備などを自動でコントロールするために使われている。
つまりボタンを押して機械・設備を動かしたり、停止したりという制御に必要な制御盤を構成する部品の一つといえる。しかしながら電磁リレーや電子タイマーという部品とは異なり、これらの部品が1000ほど内蔵されているような多機能な構成部品というイメージである。
工場のような場所に設置された機械・設備を扱う人の身近にある方式として有接点リレー方式とPLC方式とがあり、有接点リレー方式では名前の通り部品をコードで結んで回路を作っていくのに比べ、PLC方式ではパソコンと接続しプログラムを入れ替えることでコントロールすることができる。

有接点リレー方式と比べ特徴・メリットとして下記のことがあげられる。

1、経済的
部品をつなぎ合わせて作るのではなく、プログラミングで回路設計ができ配線作業がなく時間的コストを抑えることができる。

2、制御盤が小さくできる
PLC1個に何千個分のリレー、タイマー、カウンタが組み込まれており単純に同じ機能を小さいスペースで構築できる。

3、高度な回路設計が可能
部品を複数配線して実現するようなことが、プログラムの命令1つでできるようになるため高度な回路設計も比較的簡単にできる。

4、量産化が容易
同じものをたくさん量産する場合、PLCにプログラムをコピーするだけで実現できるため容易に複製することができる。

5、変更が容易
機械や装置の仕様変更に伴い変更していかないといけない制御回路をプログラム内容を変更するだけで変えることができる。

6、保守性が良い
故障についても、有寿命部品が少ないため機械全体の電気故障発生率を抑えることができる。

──────────────────────────────────