cita-monitor告警排查求解

出块信息正常 但是一直报出块间隔异常
这是邮件获取时间


这是区块日志

这是agent收集到的数据

求解,问题该如何排查

邮件的告警是说监控的节点超过30s块高没有增长了。
你下面贴的日志是正常的。

这个日志跟告警邮件里面不是同一个节点吧?
CITA的共识是拜占庭容错的,可以容忍部分节点出错,只要出错的节点不超过共识节点总数的1/3。

还是要找到邮件里面说的那个节点,看看是不是有什么问题?

您好 日志和告警邮件是同一个节点的,这个节点我刚看了,出块是正常的,但是通过http://192.168.129.126:1920/metrics/cita看到的数据是这样的

那你在这台机器上执行

curl -X POST --data '{"jsonrpc":"2.0","method":"blockNumber","params":[],"id":1}' 192.168.129.126:1345

看返回值是什么?


@rink1969返回值是这个

30s内连续执行的

那这个节点没问题。

@liyan 这个告警是什么意思?是不是可以忽略?

这个告警一直在报,一会异常一会恢复,但是出块日志一直是正常的。应该如何排查呢
@rink1969

重启了一下节点好了 但是不知道造成这个问题的原因
@rink1969

Interval_Error 这条告警策略是:

  • 出块间隔过久:出块间隔大于设置告警阀值

对应的告警规则是,默认阈值是6秒,你这边改了30秒:

Node_Get_BlockTimeDifference 的值就是当前块高时间减去上一个块高时间(就是出块间隔时间)

你可以贴一下cita-monitor 的 CITA Node Info Dashboard 面板
中的 Block Interval 图观察下,应该是有节点所在主机的时间没有对齐一致。