Skip to content

Commit c95d532

Browse files
Copilotwaynexia
andauthored
feat: update failure detector document (#2148)
Co-authored-by: copilot-swe-agent[bot] <[email protected]> Co-authored-by: waynexia <[email protected]>
1 parent 17bbdd3 commit c95d532

File tree

4 files changed

+40
-40
lines changed

4 files changed

+40
-40
lines changed

docs/user-guide/deployments-administration/configuration.md

Lines changed: 10 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -638,20 +638,21 @@ retry_delay = "500ms"
638638
max_running_procedures = 128
639639

640640
# Failure detectors options.
641+
# GreptimeDB uses the Phi Accrual Failure Detector algorithm to detect datanode failures.
641642
[failure_detector]
642643

643-
## The threshold value used by the failure detector to determine failure conditions.
644+
## Maximum acceptable φ before the peer is treated as failed.
645+
## Lower values react faster but yield more false positives.
644646
threshold = 8.0
645647

646-
## The minimum standard deviation of the heartbeat intervals, used to calculate acceptable variations.
648+
## The minimum standard deviation of the heartbeat intervals.
649+
## So tiny variations don't make φ explode. Prevents hypersensitivity when heartbeat intervals barely vary.
647650
min_std_deviation = "100ms"
648651

649-
## The acceptable pause duration between heartbeats, used to determine if a heartbeat interval is acceptable.
652+
## The acceptable pause duration between heartbeats.
653+
## Additional extra grace period to the learned mean interval before φ rises, absorbing temporary network hiccups or GC pauses.
650654
acceptable_heartbeat_pause = "10000ms"
651655

652-
## The initial estimate of the heartbeat interval used by the failure detector.
653-
first_heartbeat_estimate = "1000ms"
654-
655656
## Datanode options.
656657
[datanode]
657658

@@ -739,10 +740,9 @@ create_topic_timeout = "30s"
739740
| `procedure.retry_delay` | String | `500ms` | Initial retry delay of procedures, increases exponentially |
740741
| `procedure.max_running_procedures` | Integer | `128` | The maximum number of procedures that can be running at the same time. If the number of running procedures exceeds this limit, the procedure will be rejected. |
741742
| `failure_detector` | -- | -- | -- |
742-
| `failure_detector.threshold` | Float | `8.0` | The threshold value used by the failure detector to determine failure conditions. |
743-
| `failure_detector.min_std_deviation` | String | `100ms` | The minimum standard deviation of the heartbeat intervals, used to calculate acceptable variations. |
744-
| `failure_detector.acceptable_heartbeat_pause` | String | `10000ms` | The acceptable pause duration between heartbeats, used to determine if a heartbeat interval is acceptable. |
745-
| `failure_detector.first_heartbeat_estimate` | String | `1000ms` | The initial estimate of the heartbeat interval used by the failure detector. |
743+
| `failure_detector.threshold` | Float | `8.0` | Maximum acceptable φ before the peer is treated as failed.<br/>Lower values react faster but yield more false positives. |
744+
| `failure_detector.min_std_deviation` | String | `100ms` | The minimum standard deviation of the heartbeat intervals.<br/>So tiny variations don't make φ explode. Prevents hypersensitivity when heartbeat intervals barely vary. |
745+
| `failure_detector.acceptable_heartbeat_pause` | String | `10000ms` | The acceptable pause duration between heartbeats.<br/>Additional extra grace period to the learned mean interval before φ rises, absorbing temporary network hiccups or GC pauses. |
746746
| `datanode` | -- | -- | Datanode options. |
747747
| `datanode.client` | -- | -- | Datanode client options. |
748748
| `datanode.client.timeout` | String | `10s` | Operation timeout. |

i18n/zh/docusaurus-plugin-content-docs/current/user-guide/deployments-administration/configuration.md

Lines changed: 10 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -630,20 +630,21 @@ max_running_procedures = 128
630630

631631

632632
# Failure detector 选项
633+
# GreptimeDB 使用 Phi 累积故障检测器算法来检测数据节点故障。
633634
[failure_detector]
634635

635-
## Failure detector 检测阈值
636+
## 判定节点故障前可接受的最大 φ 值。
637+
## 较低的值反应更快但会产生更多误报。
636638
threshold = 8.0
637639

638-
## 心跳间隔的最小标准差,用于计算可接受的变化。
640+
## 心跳间隔的最小标准差。
641+
## 防止微小变化导致 φ 值激增。在心跳间隔变化很小时防止过度敏感。
639642
min_std_deviation = "100ms"
640643

641-
## 心跳之间可接受的暂停时间长度。
644+
## 心跳之间可接受的暂停时长。
645+
## 在 φ 值上升前为学习到的平均间隔提供额外的宽限期,吸收临时网络故障或GC暂停。
642646
acceptable_heartbeat_pause = "10000ms"
643647

644-
## 首次心跳间隔的估计值。
645-
first_heartbeat_estimate = "1000ms"
646-
647648
## Datanode 选项。
648649
[datanode]
649650

@@ -712,10 +713,9 @@ create_topic_timeout = "30s"
712713
| `procedure.retry_delay` | 字符串 | `500ms` | Procedure 初始重试延迟,延迟会指数增长。 |
713714
| `procedure.max_running_procedures` | Integer | `128` | 同一时间可以运行的程序最大数量。如果运行的程序数量超过此限制,程序将被拒绝。 |
714715
| `failure_detector` | -- | -- | 故障检测选项。 |
715-
| `failure_detector.threshold` | 浮点数 | `8.0` | Failure detector 用来判断故障条件的阈值。 |
716-
| `failure_detector.min_std_deviation` | 字符串 | `100ms` | 心跳间隔的最小标准差,用于计算可接受的变动范围。 |
717-
| `failure_detector.acceptable_heartbeat_pause` | 字符串 | `10000ms` | 允许的最大心跳暂停时间,用于确定心跳间隔是否可接受。 |
718-
| `failure_detector.first_heartbeat_estimate` | 字符串 | `1000ms` | 初始心跳间隔估算值。 |
716+
| `failure_detector.threshold` | 浮点数 | `8.0` | 判定节点故障前可接受的最大 φ 值。<br/>较低的值反应更快但会产生更多误报。 |
717+
| `failure_detector.min_std_deviation` | 字符串 | `100ms` | 心跳间隔的最小标准差。<br/>防止微小变化导致 φ 值激增。在心跳间隔变化很小时防止过度敏感。 |
718+
| `failure_detector.acceptable_heartbeat_pause` | 字符串 | `10000ms` | 心跳之间可接受的暂停时长。<br/>在 φ 值上升前为学习到的平均间隔提供额外的宽限期,吸收临时网络故障或GC暂停。 |
719719
| `datanode` | -- | -- | |
720720
| `datanode.client` | -- | -- | Datanode 客户端选项。 |
721721
| `datanode.client.timeout` | 字符串 | `10s` | 操作超时。 |

i18n/zh/docusaurus-plugin-content-docs/version-0.17/user-guide/deployments-administration/configuration.md

Lines changed: 10 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -630,20 +630,21 @@ max_running_procedures = 128
630630

631631

632632
# Failure detector 选项
633+
# GreptimeDB 使用 Phi 累积故障检测器算法来检测数据节点故障。
633634
[failure_detector]
634635

635-
## Failure detector 检测阈值
636+
## 判定节点故障前可接受的最大 φ 值。
637+
## 较低的值反应更快但会产生更多误报。
636638
threshold = 8.0
637639

638-
## 心跳间隔的最小标准差,用于计算可接受的变化。
640+
## 心跳间隔的最小标准差。
641+
## 防止微小变化导致 φ 值激增。在心跳间隔变化很小时防止过度敏感。
639642
min_std_deviation = "100ms"
640643

641-
## 心跳之间可接受的暂停时间长度。
644+
## 心跳之间可接受的暂停时长。
645+
## 在 φ 值上升前为学习到的平均间隔提供额外的宽限期,吸收临时网络故障或GC暂停。
642646
acceptable_heartbeat_pause = "10000ms"
643647

644-
## 首次心跳间隔的估计值。
645-
first_heartbeat_estimate = "1000ms"
646-
647648
## Datanode 选项。
648649
[datanode]
649650

@@ -712,10 +713,9 @@ create_topic_timeout = "30s"
712713
| `procedure.retry_delay` | 字符串 | `500ms` | Procedure 初始重试延迟,延迟会指数增长。 |
713714
| `procedure.max_running_procedures` | Integer | `128` | 同一时间可以运行的程序最大数量。如果运行的程序数量超过此限制,程序将被拒绝。 |
714715
| `failure_detector` | -- | -- | 故障检测选项。 |
715-
| `failure_detector.threshold` | 浮点数 | `8.0` | Failure detector 用来判断故障条件的阈值。 |
716-
| `failure_detector.min_std_deviation` | 字符串 | `100ms` | 心跳间隔的最小标准差,用于计算可接受的变动范围。 |
717-
| `failure_detector.acceptable_heartbeat_pause` | 字符串 | `10000ms` | 允许的最大心跳暂停时间,用于确定心跳间隔是否可接受。 |
718-
| `failure_detector.first_heartbeat_estimate` | 字符串 | `1000ms` | 初始心跳间隔估算值。 |
716+
| `failure_detector.threshold` | 浮点数 | `8.0` | 判定节点故障前可接受的最大 φ 值。<br/>较低的值反应更快但会产生更多误报。 |
717+
| `failure_detector.min_std_deviation` | 字符串 | `100ms` | 心跳间隔的最小标准差。<br/>防止微小变化导致 φ 值激增。在心跳间隔变化很小时防止过度敏感。 |
718+
| `failure_detector.acceptable_heartbeat_pause` | 字符串 | `10000ms` | 心跳之间可接受的暂停时长。<br/>在 φ 值上升前为学习到的平均间隔提供额外的宽限期,吸收临时网络故障或GC暂停。 |
719719
| `datanode` | -- | -- | |
720720
| `datanode.client` | -- | -- | Datanode 客户端选项。 |
721721
| `datanode.client.timeout` | 字符串 | `10s` | 操作超时。 |

0 commit comments

Comments
 (0)