可用性管理とは
まずは可用性管理の概要を見ていきましょう。
ITシステムを一定レベルで稼働できるようにすること
可用性とは、ITシステムが継続して稼働する能力のことです。つまり、可用性管理とは「ITシステムの稼働が停止することがないよう、監視・維持・改善すること」を指します。
一般的には、SLAで合意された品質レベルの維持を目標とします。SLAとは、サービスベンダーと利用者の間で、品質に関する合意を行うことです。ベンダーはSLAで定めたサービス水準を保たなければならず、その項目の1つに可用性があります。
事業を安定継続するために必要不可欠
現在、ビジネスにおけるITシステムの重要性は年々増してきています。わずかなITシステムの停止が、大きな損失につながるでしょう。したがって、ITシステムの可用性を管理することは、事業の安定継続に不可欠といえます。
ただし、可用性100%というのはコストが膨大にかかるため実現不可能です。高度な可用性管理をした結果、得られるメリットよりも、コストのほうが大きいのでは意味がありません。
つまり、可用性管理は安定性とコストのバランスを取りながら、もっともリスクが少ない運用を実現することと言えます。
可用性管理とキャパシティ管理の違い
キャパシティ管理とは、ITシステムに必要なリソースを予測し、それを適切なコストで提供できるよう体制を整えることです。
同じITシステムでも、どれほどのリソースを要するかはケースバイケースです。たとえば、利用者の増加やシステムのアップデートに伴い、CPUやメモリの追加が求められるでしょう。
やがて追加するからといって、最初から多くのリソースを用意すると無駄なコストが発生します。したがって、リソースの必要性を監視・予測しながら、その都度対応することが大切です。このように、キャパシティ管理はリソースを調整し、コストを最適化することを目指します。
一方、可用性管理はITシステムの継続を目的としたものです。リソースが管理対象となることもありますが、それは安定的な利用のためであって、コスト最適化のためではありません。キャパシティ管理と可用性管理の違いは、その目的にあるといえます。
可用性管理に必要な5つの要素
つづいて、可用性管理には以下の5つの要素が必要になります。
- 1.可用性
- 2.信頼性
- 3.保守性
- 4.サービス性
- 5.対障害弾力性
では、それぞれ詳しく紹介していきます。
1.可用性
可用性とは、SLAで合意した稼働時間に対し、実際にどのくらいの時間稼働するかを示します。具体的には以下の式で算出します。
■可用性=実際の稼働時間/合意した稼働時間
たとえば、月に200時間の稼働をSLAで定め、実際に稼働したのが198時間であれば、可用性は99%となります。利用者がシステムを使おうとした際に、実際に使える確率ともいえるでしょう。
あくまで合意した時間に対する稼働時間であるため、合意した時間外の停止であれば問題ありません。つまり、使用時間外のメンテナンスによる停止などは、可用性における停止時間には含まれません。
2.信頼性
信頼性とは、どれほど中断せずにシステムを利用できるかを示す指標です。具体的には2つの指標があり、それぞれ以下の式で算出します。
- ■MTBF=(使用可能時間-総停止時間)/停止回数
- ■MTBSI=使用可能時間/停止回数
MTBFは「Mean Time Between Failure」の略で、日本語に訳すと「平均故障間隔」となります。つまり、停止して回復した時点から、次に停止するまでの平均時間のことです。
MTBSIは「Mean Time Between Service Incidents」の略で、日本語に訳すと「平均サービス間隔」となります。これは、停止した時点から次に停止するまでの平均時間のことです。MTBSIには停止している間の時間が含まれますが、MTBFには含まれません。
ただし、どちらの数値も停止回数(分母)が多いほど小さくなります。したがって、これらの数値が大きいほど、システムの信頼性が高いと言えます。
3.保守性
保守性とは、システムが停止から回復する能力を示す指標です。具体的には以下の式で算出します。
■MTRS=総停止時間/停止回数
MTRSは「Mean Time to Restore Service」の略で、日本語に訳すと「平均サービス回復時間」となります。一度の停止でどのくらいの回復時間を要するのかを示し、これが小さいほど保守性に優れていると言えます。
ただし、この数値が小さいからといって、システムが安定しているとは言いきれません。停止時間(分子)が短いのではなく、停止回数(分母)が多いのかもしれないためです。安定性を正確に把握するためには、ほかの指標と合わせて確認することが大切です。
4.サービス性
サービス性とは、ベンダーが合意した「可用性」「信頼性」「保守性」を守る能力のことです。上記3つの要素のように、具体的な時間を元にした数値で算出することはできません。契約内容や実績など、さまざまな観点から信頼できるベンダーを選定しましょう。
5.対障害弾力性
対障害弾力性とは、障害発生時に稼働を継続する能力のことです。対障害弾力性が高ければ、たとえシステムの一部に障害が発生しても停止せずに済みます。
具体的な対策には、機器を多重化する、壊れにくいパーツを使うなどがあります。問題が発生してからのリアクティブな対処だけでなく、問題を未然に防ぐプロアクティブな対策で障害に備えましょう。
可用性管理の運用方法
可用性管理は、どのように運用すればよいのでしょうか。
ITILに準拠した運営を実施する
ITILとは「Information Technology Infrastructure Library」の略で、ITサービスマネジメントのガイドラインです。英国政府により1989年に発行され、それ以降改定が重ねられています。最新版は2019年にリリースされたITIL4です。
ITILでは「プロセス」「人」「製品・技術」の3要素にバランスよく注力することが推奨されています。また、ITサービス管理のテンプレートが記載されており、多くの企業がこれに準拠した管理を行っています。
何から手を付けてよいのか分からない場合は、まずITILを参考に運営方法を考えましょう。
統合運用管理ツールを導入する
統合運用管理とは、社内にあるITシステムを一括管理することです。そして、統合運用管理ツールはそれを実現するためのシステムです。社内に多数あるシステムをすべて把握・管理するのは簡単ではありません。ツールがなくても把握可能ではありますが、多大な労力を要するでしょう。
統合運用管理ツールがあれば、管理を一元化できるだけでなく、一部の作業を自動化できます。属人性を排除でき、迅速で正確な管理が実現するでしょう。
可用性管理を行って自社のシステムを最適化しよう
可用性管理とは、ITシステムがSLAで定めた基準に沿って稼働するよう管理することです。ITの依存度が高い昨今では欠かせなくなっています。可用性管理には必要となる5要素があり、これらを運用するために以下の方法があります。
- ■ITILに準拠した運営
- ■統合運用管理ツールの導入
統合運用管理ツールを導入すれば、可用性管理だけでなくセキュリティ管理やIT資産管理を行うこともできます。可用性管理を行い、自社のシステムを最適化するためにツールの導入を検討してみてはいかがでしょうか。