監視しているサーバーが稼働しているのに死活監視(Connectivity)のアラートが発生した
- 死活監視(Connectivity)のアラートは mackerel-agent からのデータ送信の途絶が一定時間以上経過したことを検知して発報する仕組みとなっています。
- 通常はホストの停止やエージェントプロセスの停止などを起因として発報されますが、ネットワークの不調などによりデータ送信が正常に行えない状況において、ホストが正常稼働している場合でも発生することがございます。
- この状況に該当する多くの場合、mackerel-agentのログに
Failed to post metrics value (will retry)
といった内容のエラーログが出力されます 。
- アラート発生後のホスト詳細画面でメトリックが途切れることなく正常に確認できる場合は、 mackerel-agent の再送機能によりアラート発生後にメトリックが投稿されたものになります。
- 本事象に該当する場合、ご利用環境の状況やMackerelの障害情報( Twitter や ステータスページ で公開してます)などに応じて、以下の点などをご確認ください。
- ご利用のネットワーク通信状況に問題があった場合
- Mackerelとの通信が正常におこなえるよう、ネットワーク通信における問題を解消してください。
- エージェントプロセスが稼働していなかった場合
- エージェントの再起動をお試しください。
- 再起動をしてもすぐにプロセスが終了してしまう場合、エージェントの出力するログを確認してください。
- Mackerelに障害が発生していた場合
- 障害の解消までお待ちください。
- 障害中のデータは、最大6時間分はエージェントにバッファリングされ、障害解消後、順次再送されます。