データベース障害

昨夜、会社のデータベースに障害が発生し、一部の情報が失われるという事故が発生した。
データベースとデータそのものはバックアップシステムのおかげですぐにリカバーしたが、その後の調整に時間がかかり、収束は結局23時になった。
言うまでもないが、世の中にはダウンしないシステムはない。ダウンしない設計というのもあるが、それは本当にダウンしないわけではなく、システムが二重化されていたりして、見かけ上ダウンしないことになっているだけである。また、ダウンしないことになっているシステムでも、必ずダウンする。
システムはダウンしないことを目標に構築しなければならないが、ダウンしないことを前提に運用してはならない。ダウンすることを前提に、いざという時にいかに復旧させるかを考えておくべきだ。ダウンしないようにするのはアーキテクチャだが、ダウンからリカバーさせるのはオペレーションである。失恋からのリカバーと同じである。しかし、「時間が解決してくれる」などと悠長なことはいってられない。システムは速やかに復旧したい。
スピーディーな復旧のオペレーションにはログが非常に役に立つ。しかし、バックアップのことほどログのことは気を使われない。今回のリカバーも、もう少しログが充実していたら調整も楽だったろうと思われる。
ところで、ログというのはシステムのリカバリーだけではなく内部統制的にも重要である。「見える化」や「見せる化」の元でもある。しかし、得てしてログは充分ではない。システムも大きくなってきているので、今の内にログも見直したい。

カゴヤ第三世代システム(第四世代はもっときれいです)

Post to Twitter

3 Responses to “データベース障害”

  1. マーフィーの法則を基本にシステム作りを頑張っているのですね。

  2. マーフィーの法則とは微妙に違いますが、最悪の事態を想定するというのはマーフィーの法則にもつながるところがあります。
    実は、過去まだぼくが一人でやっていたとき、これをやっていなくてひどい目にあったことがあります。データベースサーバーがクラッシュして、全部のデータがなくなったのです。バックアップもありませんでした。
    その時は、過去のメールや書類をもとに、お客様500件分を一晩かけて手で治しました(泣

  3. 東京にある某エ○○クスのデータセンター。今年の初め頃だったでしょうか、ビルの動力の大元をショートさせてしまい、これによりビル全体が停電。バックアップすら働かなかった… という事故がありました。ここを利用しているレンタルサーバ事業者のサービスも含め、すべてが止まってしまうという事態になりましたが、想定外の事故だったんでしょうね。

    データセンターって、常に動いて当たり前の評価しか得られないですから、結構割に合わないですよね。

    がんばってくださいね~!! 応援してます!!

Discussion Area - Leave a Comment




コメントリンクを nofollow free に設定することも出来ます。