Server Administrator は、イベントの種類を使用して、システムの重要コンポーネントに影響するイベントを分類します。 コンポーネントの状態として表示される最も一般的なイベントの種類は、正常、警告、重要の 3 種類です。
このヘルプモジュールでは、イベントの種類、状態、重大度に関する用語を定義しています。 Server Administrator がイベントの分類、およびコンポーネントの正常性の識別に使用するさまざまな用語の詳細については、このヘルプモジュールをお読みください。
Server Administrator がコンポーネントの正常性を報告しているのか、イベントを分類しているのかが区別可能な属性は次のとおりです。監視されているコンポーネントまたは冗長性、および種類、状態、およびコンポーネントが処理しているイベントの重大度。
Server Administrator はコンポーネントとその冗長性との両方を種類、重大度そして状況に応じて分類します。
システムに存在するコンポーネントはすべてがそれぞれに重要な役割を持っています。 Server Administrator などのシステム管理アプリケーションでは、一部のコンポーネントに特に注目します。 コンピュータシステムの正常性を保つには、システムコンポーネントを正しく動作させるための適切な電圧の電力供給がとりわけ重要になります。 電力はシステムの交流(AC)スイッチを通じてシステムの電源装置に供給されます。 また、システムの各コンポーネントはシャーシ内の温度が機能範囲でなければなりません。 プログラム実行とデータ計算には、よく機能するランダムアクセスメモリが必要です。 これらの要件から、モニタ電源スイッチ、電源装置、ファン、およびシステムメモリは、Server Administrator が監視するコンポーネントの中でも最重要と言えます。
Server Administrator は冗長コンポーネントの正常性を監視し、冗長性の状態をシステムにレポートします。
企業体や組織の業務においてどのようにシステムが重要であるかによって、計画された冗長性でシステムコンポーネントはシステムに導入されます。 組織の業務に重要なシステムほど、冗長コンポーネントが必要になります。 冗長コンポーネントは、対になるコンポーネントにエラーが発生した場合に、その代替を果たすように設計されたものです。 冗長性があれば、システムシャットダウンやコンポーネントの損傷によるダウンタイムからシステムを保護できます。 次のような冗長性の状況が可能です。
システム全体に対する完全冗長とは、すべてのデバイスが正常な状態で稼動していることを意味します。 システムが完全冗長に 4 台のファンを必要とし、4 台すべてが稼動している場合、そのシステムにはファンコンポーネントの完全冗長があります。 2 台のプライマリファンのどちらかにエラーが発生しても、バックアップが用意されています。 完全冗長には通常の予防保守以外の処置は必要ありません。
低下冗長とは、完全冗長に必要なコンポーネントの一部が動作していないことを意味します。 システムは作動可能ですが、コンポーネントエラーが発生した場合に、作動可能なコンポーネントを許可するのに十分な追加コンポーネントが動作していません。 たとえば、4 台のファンが完全冗長に必要で、実際に動作しているファンが 3 台の場合、低下冗長とみなされます。 2 台のプライマリファンのうち 1 台のみにエラー時のバックアップがあります。
喪失冗長とは、システムエラーを防ぐための最低限の数のコンポーネントしか動作していないことを意味します。 冗長コンポーネントは動作していません。 4 台のファンが完全冗長に必要で、実際には 2 台しか動作していない場合、ファンにエラーが発生すると、どちらのプライマリファンにもバックアップがありません。
イベントは種類によって分類されます。 例えば、正常、警告、重要などです。
正常イベントはコンポーネントがシステム内でその機能を適切に実行できる値の囲内で作動していることを示します。 状態が正常のコンポーネントにしばしば適用される別の用語は、OK です。 コンポーネントが OK またはイベントが正常である場合は、システムオペレータは対応処置を取る必要がありません。
警告イベントは、管理コンポーネントは最適に作動していなくても、まだ作動可能な場合に発生します。 警告イベントはシステムオペレータにリードタイムを提供します。 警告イベントに対する適切な処理は、詳しく調査してコンポーネントのメンテナンスをスケジュールすることです。 警告は、そのコンポーネントが正常に戻るまで、システムオペレータにより注意を払うように警告します。 パワーユーザーとシステム管理者は、警告イベントに対する最小値と最大値を定義できます。 パワーユーザーとシステム管理者の警告範囲を定義する特権では、パフォーマンスに低下の兆しを示し始めたコンポーネントへの対処に必要なリアクションタイムを組み入れることができます。
重要 / エラーイベントは、コンポーネントが適切な機能範囲の域外で作動しているか、またはまったく作動していないことを示します。 全く作動していないコンポーネントは回復不能とみなされることがあります。 コンポーネントを開発し、その機能を最もよく理解しているシステムメーカーがコンポーネントの重要 / エラー範囲を定義します。 重要 / エラーとは警告と比較してより緊急であるという意味を持ちます。システムオペレータにとってこの種類のコンポーネントパフォーマンスの低下はより深刻なものです。 コンポーネントに重要事項やエラーが発生した場合は、システムの速やかなシャットダウンや交換するコンポーネントの緊急手配などを行います。
コンポーネントの状況またはシステムの属性には、作動可能、低下、作動不能があります。
作動可能な温度とは、シャーシ内部にある温度プローブの読み取り値が正常な作動範囲内にあることを意味します。
低下温度とは、シャーシ内部にある温度プローブの読み取り値が作動温度の最低と最高とで定義された警告範囲内にあることを意味します。 シャーシ内の温度が正常温度の最小値を下回るか、正常温度の最大値を超えています。
低下冗長とは、各重要コンポーネントにエラーが発生した場合に、代替可能なバックアップ用のコンポーネントが足りないことを意味します。
作動不能のコンポーネントまたはコンポーネント属性とは、そのコンポーネントがエラーまたは回復不能の範囲で動作していることを意味します。 温度の例をとると、システムはまだ作動していますが、温度が正常範囲のはるか上または下なので、システムのサーマルシャットダウンをトリガするか、または温度がシステムコンポーネントを損傷または破壊する恐れがあります。
コンポーネントの各イベント種類と状態は、その重大度にしたがって評価されます。 イベントの重大度には、情報、マイナー、メジャー、重要 / エラーがあります。
正常なイベントまたはコンポーネントの状態は作動状況にあり、正常イベントに関連する重大度は情報のみです。 Server Administrator は正常なイベントに対しては情報提供のみを行います。 Server Administrator はシステムオペレータにコンポーネントが正常であることを通知します。
警告イベントはコンポーネントによってマイナーか重要になります。 例えば、ファン冗長システムからファンを 1 台取り外したときのイベントの重大度はマイナーとなります。
一部の警告イベントはシステムのメジャーなリスクを示します。 ファンがシステムから長時間外されたままになると、冗長性が低下するためイベントがメジャーになる場合があります。 組織の業務において冗長性が必要なシステムのコンポーネントが長時間不在になると、使用可能なバックアップなしのコンポーネントエラー、およびシステムエラーに進展する可能性があります。
エラー範囲が重要になっているコンポーネントを検出するイベントです。 ファンや AC コード、メモリモジュールなどのコンポーネントにエラーがあると、システムの作動能力やデータ保存機能を著しく損ないます。
以下の表は重要コンポーネントに対するイベント例を提供し、イベントの種類、重大度そして状況がどう関連しているかを示します。
コンポーネント | イベントまたは警告の種類 | 重大度 | 状況 |
AC コード | 正常 | 情報 | 作動可能 |
AC コード | エラー | 重要 | 低下 |
電源装置 | エラー | 重要 | 低下 |
冗長性(電源システム) | 完全 | 情報 | 作動可能 |
冗長性(電源システム) | 低下 | マイナー | 低下 |
冗長性(電源システム) | 喪失 | メジャー | 低下 |
温度 | 正常 | 情報 | 作動可能 |
温度 | 警告 | マイナー | 低下 |
温度 | エラー | 重要 | 低下 |
サーマル | シャットダウン | 重要 | 作動不能 |