ablog

不器用で落着きのない技術者のメモ

Oracle RAC の投票ディスクについて

オラクルマスター教科書 ORACLE MASTER Expert 【RAC】編(試験番号:1Z0-048)

P.460

投票ディスクの機能
CSSD(Cluster Syncronization Service デーモン)は、インターコネクトを介してほかのノードと通信し、通信状況を投票ディスクに格納します。インターコネクトに障害が発生した場合、共有ディスクに対するI/Oの同期が取れなくなるため、クラスタが分断された状態になります。クラスタが孤立するとほかのノードが使用可能か判断できなくなり、同じデータベースに対して非同期アクセスすることでデータベースの不整合が発生する可能性があります。このような状況は「スプリットブレイン」と呼ばれ、投票ディスクはスプリットブレインを解決するために使用されます。

スプリットブレインが発生すると、孤立したノードを削除する必要があります。その際には、通信できるノード数の多いノード群を残存ノードにし、少ないノード群を削除にします。ノード数が等しい場合は、小さいノード番号が割り当てられているノードを残存ノードにし、大きいノード番号が割り当てられているノードを削除します。削除されることになったノードは、全ての書き込みI/Oを停止するためにノードが再起動します。ノード数が変化したときのノードリストの再構成を「クラスタ再構成」と呼びます。

P.461

投票ディスクの動作に影響を与えるパラメータ
インターコネクトを使用したネットワークのハートビートと投票ディスクへのI/Oは、1秒間隔で実行されます。ハートビートが識別できなかったり投票ディスクへのI/Oがタイムアウトすると、該当するノードは再起動します。タイムアウトの設定には、MISSCOUNTとDISKTIMEOUTの2つのパラメータが関係します。

  • MISSCOUNT
    • インターコネクト全体でハートビートが認識できないと判定されるまでの最大許容時間(秒単位)です。この時間を経過すると、ノードを削除するためにクラスタ再構成が行われます。
    • ベンダー製クラスタウェアを使用していない場合のデフォルトは30秒(Linuxは60秒)、ベンダー製クラスタウェアを使用している場合のデフォルトは600秒です。
  • DISKTIMEOUT
    • 投票ディスクへのディスクI/Oが実行できないと判定されるまえでの最大許容時間(秒単位)です。この時間を経過するとノードを削除するためにクラスタ再構成が行われます。デフォルトは200秒です。

DISKTIMEOUTを使用して投票ディスクへのI/Oタイムアウトが設定されるのは、10.2.0.2以降です。10.2.0.1の場合は、MISSCOUNT-3秒がディスクタイムアウトしきい値になります。

Oracle Database 11g Oracle Real Application Clusters Handbook, 2nd Edition (Oracle Press)

  • CHAPTER 14 Oracle RAC Troubleshooting
    • Debugging Node Eviction Issues

One of the most common and complex issues in Oracle RAC is performing the root cause analysis (RCA) of the node eviction issues. Oracle evicts a node from the cluster mainly due to one of the following three reasons:

  • The node is not able to complete the network heartbeat (NHB).
  • The node is not able to complete the disk heartbeat (DHB).
  • The node does not have enough CPU to perform either of the heartbeat operations.

Oracle Grid Infrastructureインストレーション・ガイド 11gリリース2 (11.2) for Linux B56271-12

  • 2.13 Intelligent Platform Management Interface(IPMI)の有効化

Intelligent Platform Management Interface(IPMI)は、コンピュータのハードウェアおよびファームウェアへの共通インタフェースを提供し、システム管理者はそのインタフェースを使用して、システム状態の監視およびシステムの管理を実行できます。Oracle 11g リリース2では、Oracle ClusterwareにIPMIを統合して、障害分離をサポートしたりクラスタの整合性を確保することができます。

インストール中にノード・ターミネーション・プロトコル(IPMIなど)を選択することで、IPMIでノード・ターミネーションを構成できます。また、IPMIは、crsctlコマンドを使用してインストール後に構成することもできます。

http://www.oracle.com/technetwork/jp/database/enterprise-edition/db11gr2-10-134833-ja.pdf

P.36

IPMI: ハードウェア と ファームウェア に共通インターフェースを提供することによってシステムを監視します。
OUI では、IPMI を利用して障害が発生したリモート・ノードの停止を実施する仕組みを構成可能です。OUI でのインストール実行後に手動で構成することも可能です。
IPMI の使用
Oracle Clusterware で IPMI を使用する場合には、OUI にて Grid Infrastructure のインストール時に IPMI の構成(ADMIN 権限を持 ザ名やパ ドの入力)が可能です あるい 権限を持つユーザ名やパスワードの入力)が可能です。あるいはインストール終了後に手動で設定が可能です。
また、IPMI を設定する際には事前に OS 側で IPMI を構成し使用可能な状態にしておく必要があります。


絵で見てわかるシステム構築のためのOracle設計 (DB Selection)

絵で見てわかるシステム構築のためのOracle設計 (DB Selection)