跳到主要内容

告警


不同维度告警列表,可分为服务、端点和实例

  • SkyWalking 的发行版都会默认提供config/alarm-settings.yml文件,里面预先定义了一些常用的告警规则。如下:

    1.过去 3 分钟内服务平均响应时间超过 1 秒。 2.过去 2 分钟服务成功率低于80%。 3.过去 3 分钟内服务响应时间超过 1s 的百分比 4.服务实例在过去 2 分钟内平均响应时间超过 1s,并且实例名称与正则表达式匹配。 5.过去 2 分钟内端点平均响应时间超过 1 秒。 6.过去 2 分钟内数据库访问平均响应时间超过 1 秒。 7.过去 2 分钟内端点关系平均响应时间超过 1 秒。 这些预定义的告警规则,打开config/alarm-settings.yml文件即可看到

  • 告警规则配置项的说明:

Rule name:规则名称,也是在告警信息中显示的唯一名称。必须以_rule结尾,前缀可自定义 Metrics name:度量名称,取值为oal脚本中的度量名,目前只支持long、double和int类型。详见Official OAL script Include names:该规则作用于哪些实体名称,比如服务名,终端名(可选,默认为全部) Exclude names:该规则作不用于哪些实体名称,比如服务名,终端名(可选,默认为空) Threshold:阈值 OP: 操作符,目前支持 >、<、= Period:多久告警规则需要被核实一下。这是一个时间窗口,与后端部署环境时间相匹配 Count:在一个Period窗口中,如果values超过Threshold值(按op),达到Count值,需要发送警报 Silence period:在时间N中触发报警后,在TN -> TN + period这个阶段不告警。 默认情况下,它和Period一样,这意味着 相同的告警(在同一个Metrics name拥有相同的Id)在同一个Period内只会触发一次 message:告警消息