データの軽量化・最適化ツールとは?
情報は加速度的に増加しています。専門機関の予想によると、2020年には世界中で44ペタバイトのデータ量に登ると報告されています。これには、人間が生み出すデータのみならず、センサなどの機械が計測するデータも含まれています。
企業内のデータも確実に増加しています。ファイルサーバ容量の肥大化によりバックアップが終わらない、ファイルを見つけるのに時間がかかり作業効率が低下している、エンドユーザから容量拡張の依頼が殺到している……というような悩みを聞くようになりました。
このような課題を解決するために開発されたのが「データ軽量化・データ最適化」ツールです。「データ軽量化・データ最適化」は、データ圧縮、データ利用頻度による保存場所の最適化や重複排除、スナップショットなどの複数の機能を提供します。
データ圧縮から重複排除へ
データ軽量化のニーズは早い時期からありました。データの爆発的な増加というよりは、ハードディスクが高価であったことが背景にあります。同時に、データを転送するネットワーク回線が狭く大量に転送できませんでした。効率的に蓄積したり転送したりするには、「データ圧縮」せざるを得ませんでした。
やがてクライアント台数が増えると、同じデータをプロジェクトメンバーがそれぞれに持つようになります。本来なら共有の場所に一つ置けば済むのですが、自分のパソコンにダウンロードして保存しようとします。
さらに、一部変更してバージョン違いのファイルも多数生まれるようになりました。日々交換されるメールも、過去の文面が繰り返し残されています。この重複している個所をなくして蓄積しようというのが「重複排除」です。
重複排除により、データ容量を半分以下、場合によっては1割程度にまで減らすこともできるようになります。そうすることでバックアップの際の転送量も飛躍的に削減できます。
バックアップをスナップショットで高速化
データの増加はバックアップにも大きな影響を与えます。重要なデータは日々バックアップが求められますが、営業終了時間から開始して翌朝の営業開始に間に合わなくなることもあります。そこで、業務時間中にバックアップを実行すると、パフォーマンスが低下してしまいます。
そこで、開発された技術が「スナップショット」です。データベースファイルなどを、特定のタイミングで抜き出すもので、名前のとおりその時点のデータイメージを取り込む機能です。
たとえばデータ格納庫として使っているDドライブのイメージを作成すると、Dドライブとまったく同じ複製物ができあがります。本番も複製も同じものとしてアクセスできます。この複製をバックアップとしてコピーします。その間本番は稼働し続け、データは更新されますが、複製には影響を与えません。
データ配置の最適化とライフサイクル管理
データ軽量化に続いて、データの最適配置の考え方が生まれました。使用頻度の少ないデータは圧縮さらには重複排除して、価格の安い蓄積専用のストレージに保存しようというものです。
経理書類や契約書などは法的保存期間が定められています。たとえ使わなくても、その期間は廃棄できません。このような使わないデータは、光ディスクやテープメディアなどのアーカイブ適した方法で保管します。一方で頻繁にアクセスされる業務システムなどのデータは、高価なSSD(Solid State Drive)などに置いて、サービス品質を向上させます。
一定期間使われていないようであれば、所有者に削除を依頼します。社内でポリシーを設定して、一定期間使われなくなったファイルを強制的に削除することもできます。このように、ファイルの発生から保存、廃棄までモニタリングし管理することを「情報ライフサイクル管理(Information Lifecycle Management:ILM)」と呼びます。
データの利用頻度などから自動的に保管場所を最適化する仕組みも「データ最適化」の機能です。
「データ軽量化・データ最適化」ツールで社内データのスリム化を目指しませんか?