データベース障害
Posted on 10月 25th, 2008 by 世界のKITAGAWA
昨夜、会社のデータベースに障害が発生し、一部の情報が失われるという事故が発生した。
データベースとデータそのものはバックアップシステムのおかげですぐにリカバーしたが、その後の調整に時間がかかり、収束は結局23時になった。
言うまでもないが、世の中にはダウンしないシステムはない。ダウンしない設計というのもあるが、それは本当にダウンしないわけではなく、システムが二重化されていたりして、見かけ上ダウンしないことになっているだけである。また、ダウンしないことになっているシステムでも、必ずダウンする。
システムはダウンしないことを目標に構築しなければならないが、ダウンしないことを前提に運用してはならない。ダウンすることを前提に、いざという時にいかに復旧させるかを考えておくべきだ。ダウンしないようにするのはアーキテクチャだが、ダウンからリカバーさせるのはオペレーションである。失恋からのリカバーと同じである。しかし、「時間が解決してくれる」などと悠長なことはいってられない。システムは速やかに復旧したい。
スピーディーな復旧のオペレーションにはログが非常に役に立つ。しかし、バックアップのことほどログのことは気を使われない。今回のリカバーも、もう少しログが充実していたら調整も楽だったろうと思われる。
ところで、ログというのはシステムのリカバリーだけではなく内部統制的にも重要である。「見える化」や「見せる化」の元でもある。しかし、得てしてログは充分ではない。システムも大きくなってきているので、今の内にログも見直したい。
カゴヤ第三世代システム(第四世代はもっときれいです)


マーフィーの法則を基本にシステム作りを頑張っているのですね。
マーフィーの法則とは微妙に違いますが、最悪の事態を想定するというのはマーフィーの法則にもつながるところがあります。
実は、過去まだぼくが一人でやっていたとき、これをやっていなくてひどい目にあったことがあります。データベースサーバーがクラッシュして、全部のデータがなくなったのです。バックアップもありませんでした。
その時は、過去のメールや書類をもとに、お客様500件分を一晩かけて手で治しました(泣
東京にある某エ○○クスのデータセンター。今年の初め頃だったでしょうか、ビルの動力の大元をショートさせてしまい、これによりビル全体が停電。バックアップすら働かなかった… という事故がありました。ここを利用しているレンタルサーバ事業者のサービスも含め、すべてが止まってしまうという事態になりましたが、想定外の事故だったんでしょうね。
データセンターって、常に動いて当たり前の評価しか得られないですから、結構割に合わないですよね。
がんばってくださいね~!! 応援してます!!