kubernetes
diff --git a/‎cluster-autoscaler/clusterstate/clusterstate.go‎
Lines changed: 5 additions & 4 deletions b/‎cluster-autoscaler/clusterstate/clusterstate.go‎
Lines changed: 5 additions & 4 deletions
diff --git a/‎cluster-autoscaler/clusterstate/clusterstate_test.go‎
Lines changed: 3 additions & 2 deletions b/‎cluster-autoscaler/clusterstate/clusterstate_test.go‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎cluster-autoscaler/config/autoscaling_options.go‎
Lines changed: 2 additions & 0 deletions b/‎cluster-autoscaler/config/autoscaling_options.go‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎cluster-autoscaler/config/flags/flags.go‎
Lines changed: 2 additions & 0 deletions b/‎cluster-autoscaler/config/flags/flags.go‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎cluster-autoscaler/core/scaledown/latencytracker/node_latency_tracker.go‎
Lines changed: 139 additions & 0 deletions b/‎cluster-autoscaler/core/scaledown/latencytracker/node_latency_tracker.go‎
Lines changed: 139 additions & 0 deletions
@@ -27,6 +27,7 @@ import (
 	"k8s.io/autoscaler/cluster-autoscaler/cloudprovider"
 	"k8s.io/autoscaler/cluster-autoscaler/clusterstate/api"
 	"k8s.io/autoscaler/cluster-autoscaler/clusterstate/utils"
+	"k8s.io/autoscaler/cluster-autoscaler/core/scaledown"
 	"k8s.io/autoscaler/cluster-autoscaler/metrics"
 	"k8s.io/autoscaler/cluster-autoscaler/processors/nodegroupconfig"
 	"k8s.io/autoscaler/cluster-autoscaler/processors/nodegroups/asyncnodegroups"
@@ -775,18 +776,18 @@ func (csr *ClusterStateRegistry) updateCloudProviderDeletedNodes(deletedNodes []
 }
 
 // UpdateScaleDownCandidates updates scale down candidates
-func (csr *ClusterStateRegistry) UpdateScaleDownCandidates(nodes []*apiv1.Node, now time.Time) {
+func (csr *ClusterStateRegistry) UpdateScaleDownCandidates(nodes []*scaledown.UnneededNode, now time.Time) {
 	result := make(map[string][]string)
 	for _, node := range nodes {
-		group, err := csr.cloudProvider.NodeGroupForNode(node)
+		group, err := csr.cloudProvider.NodeGroupForNode(node.Node)
 		if err != nil {
-			klog.Warningf("Failed to get node group for %s: %v", node.Name, err)
+			klog.Warningf("Failed to get node group for %s: %v", node.Node.Name, err)
 			continue
 		}
 		if group == nil || reflect.ValueOf(group).IsNil() {
 			continue
 		}
-		result[group.Id()] = append(result[group.Id()], node.Name)
+		result[group.Id()] = append(result[group.Id()], node.Node.Name)
 	}
 	csr.candidatesForScaleDown = result
 	csr.lastScaleDownUpdateTime = now
 
@@ -28,6 +28,7 @@ import (
 	"k8s.io/autoscaler/cluster-autoscaler/clusterstate/api"
 	"k8s.io/autoscaler/cluster-autoscaler/clusterstate/utils"
 	"k8s.io/autoscaler/cluster-autoscaler/config"
+	"k8s.io/autoscaler/cluster-autoscaler/core/scaledown"
 	"k8s.io/autoscaler/cluster-autoscaler/metrics"
 	"k8s.io/autoscaler/cluster-autoscaler/processors/nodegroupconfig"
 	"k8s.io/autoscaler/cluster-autoscaler/processors/nodegroups/asyncnodegroups"
@@ -306,7 +307,7 @@ func TestNodeWithoutNodeGroupDontCrash(t *testing.T) {
 	err := clusterstate.UpdateNodes([]*apiv1.Node{noNgNode}, nil, now)
 	assert.NoError(t, err)
 	assert.Empty(t, clusterstate.GetScaleUpFailures())
-	clusterstate.UpdateScaleDownCandidates([]*apiv1.Node{noNgNode}, now)
+	clusterstate.UpdateScaleDownCandidates([]*scaledown.UnneededNode{{Node: noNgNode}}, now)
 }
 
 func TestOKOneUnreadyNodeWithScaleDownCandidate(t *testing.T) {
@@ -331,7 +332,7 @@ func TestOKOneUnreadyNodeWithScaleDownCandidate(t *testing.T) {
 		OkTotalUnreadyCount:       1,
 	}, fakeLogRecorder, newBackoff(), nodegroupconfig.NewDefaultNodeGroupConfigProcessor(config.NodeGroupAutoscalingOptions{MaxNodeProvisionTime: 15 * time.Minute}), asyncnodegroups.NewDefaultAsyncNodeGroupStateChecker())
 	err := clusterstate.UpdateNodes([]*apiv1.Node{ng1_1, ng2_1}, nil, now)
-	clusterstate.UpdateScaleDownCandidates([]*apiv1.Node{ng1_1}, now)
+	clusterstate.UpdateScaleDownCandidates([]*scaledown.UnneededNode{{Node: ng1_1}}, now)
 
 	assert.NoError(t, err)
 	assert.True(t, clusterstate.IsClusterHealthy())
 
@@ -358,6 +358,8 @@ type AutoscalingOptions struct {
 	CapacitybufferPodInjectionEnabled bool
 	// MaxNodeSkipEvalTimeTrackerEnabled is used to enabled/disable the tracking of maximum evaluation time of a node being skipped during ScaleDown.
 	MaxNodeSkipEvalTimeTrackerEnabled bool
+	// NodeRemovalLatencyTrackingEnabled is used to enable/disable node removal latency tracking.
+	NodeRemovalLatencyTrackingEnabled bool
 }
 
 // KubeClientOptions specify options for kube client
 
@@ -233,6 +233,7 @@ var (
 	nodeDeletionCandidateTTL                     = flag.Duration("node-deletion-candidate-ttl", time.Duration(0), "Maximum time a node can be marked as removable before the marking becomes stale. This sets the TTL of Cluster-Autoscaler's state if the Cluste-Autoscaler deployment becomes inactive")
 	capacitybufferControllerEnabled              = flag.Bool("capacity-buffer-controller-enabled", false, "Whether to enable the default controller for capacity buffers or not")
 	capacitybufferPodInjectionEnabled            = flag.Bool("capacity-buffer-pod-injection-enabled", false, "Whether to enable pod list processor that processes ready capacity buffers and injects fake pods accordingly")
+	nodeRemovalLatencyTrackingEnabled            = flag.Bool("node-removal-latency-tracking-enabled", false, "Whether to track latency from when an unneeded node is eligible for scale down until it is removed or needed again.")
 	maxNodeSkipEvalTimeTrackerEnabled            = flag.Bool("max-node-skip-eval-time-tracker-enabled", false, "Whether to enable the tracking of the maximum time of node being skipped during ScaleDown")
 
 	// Deprecated flags
@@ -425,6 +426,7 @@ func createAutoscalingOptions() config.AutoscalingOptions {
 		NodeDeletionCandidateTTL:                     *nodeDeletionCandidateTTL,
 		CapacitybufferControllerEnabled:              *capacitybufferControllerEnabled,
 		CapacitybufferPodInjectionEnabled:            *capacitybufferPodInjectionEnabled,
+		NodeRemovalLatencyTrackingEnabled:            *nodeRemovalLatencyTrackingEnabled,
 		MaxNodeSkipEvalTimeTrackerEnabled:            *maxNodeSkipEvalTimeTrackerEnabled,
 	}
 }
 
@@ -0,0 +1,139 @@
+/*
+Copyright 2022 The Kubernetes Authors.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+*/
+
+package latencytracker
+
+import (
+	"maps"
+	"slices"
+	"time"
+
+	ca_context "k8s.io/autoscaler/cluster-autoscaler/context"
+	"k8s.io/autoscaler/cluster-autoscaler/core/scaledown"
+	"k8s.io/autoscaler/cluster-autoscaler/core/scaledown/status"
+	"k8s.io/autoscaler/cluster-autoscaler/metrics"
+	"k8s.io/klog/v2"
+
+	processor "k8s.io/autoscaler/cluster-autoscaler/processors/status"
+)
+
+const (
+	// scaleDownLatencyLogThreshold is the duration after which a scale-down
+	// deletion is considered "slow". Deletions that take
+	// longer than this threshold will be logged at a more visible level
+	scaleDownLatencyLogThreshold = 3 * time.Minute
+)
+
+type unneededNodeState struct {
+	unneededSince    time.Time
+	removalThreshold time.Duration
+}
+
+// NodeLatencyTracker keeps track of nodes that are marked as unneeded, when they became unneeded,
+// and removalThresholds to emit node removal latency metrics.
+type NodeLatencyTracker struct {
+	unneededNodes map[string]unneededNodeState
+	wrapped       processor.ScaleDownStatusProcessor
+}
+
+// NewNodeLatencyTracker creates a new tracker.
+func NewNodeLatencyTracker(wrapped processor.ScaleDownStatusProcessor) *NodeLatencyTracker {
+	return &NodeLatencyTracker{
+		unneededNodes: make(map[string]unneededNodeState),
+		wrapped:       wrapped,
+	}
+}
+
+// UpdateScaleDownCandidates updates tracked unneeded nodes and reports those that became needed again.
+func (t *NodeLatencyTracker) UpdateScaleDownCandidates(list []*scaledown.UnneededNode, timestamp time.Time) {
+	currentSet := make(map[string]struct{}, len(list))
+	for _, candidate := range list {
+		nodeName := candidate.Node.Name
+		currentSet[nodeName] = struct{}{}
+		if info, exists := t.unneededNodes[nodeName]; !exists {
+			t.unneededNodes[nodeName] = unneededNodeState{
+				unneededSince:    timestamp,
+				removalThreshold: candidate.RemovalThreshold,
+			}
+			klog.V(6).Infof("Started tracking unneeded node %s at %v with removal threshold %v.", nodeName, timestamp, candidate.RemovalThreshold)
+		} else {
+			if info.removalThreshold != candidate.RemovalThreshold {
+				info.removalThreshold = candidate.RemovalThreshold
+				t.unneededNodes[nodeName] = info
+				klog.V(6).Infof("Updated removal threshold for tracked node %s to %v.", nodeName, candidate.RemovalThreshold)
+			}
+		}
+	}
+	for nodeName := range t.unneededNodes {
+		if _, exists := currentSet[nodeName]; !exists {
+			delete(t.unneededNodes, nodeName)
+			klog.V(6).Infof("Node %s is no longer unneeded (or was removed). Stopped tracking at %v.", nodeName, timestamp)
+		}
+	}
+}
+
+// Process updates unremovableNodes and reports node removal latency based on scale-down status.
+func (t *NodeLatencyTracker) Process(autoscalingCtx *ca_context.AutoscalingContext, status *status.ScaleDownStatus) {
+	if t.wrapped != nil {
+		t.wrapped.Process(autoscalingCtx, status)
+	}
+	for _, unremovableNode := range status.UnremovableNodes {
+		nodeName := unremovableNode.Node.Name
+		if info, exists := t.unneededNodes[nodeName]; exists {
+			duration := time.Since(info.unneededSince)
+			metrics.UpdateScaleDownNodeRemovalLatency(false, duration)
+			klog.V(4).Infof("Node %q is unremovable, became needed again (unneeded for %s).", nodeName, duration)
+			delete(t.unneededNodes, nodeName)
+		}
+	}
+	for _, scaledDownNode := range status.ScaledDownNodes {
+		nodeName := scaledDownNode.Node.Name
+		if info, exists := t.unneededNodes[nodeName]; exists {
+			duration := time.Since(info.unneededSince)
+			latency := duration - info.removalThreshold
+			metrics.UpdateScaleDownNodeRemovalLatency(true, latency)
+			if latency > scaleDownLatencyLogThreshold {
+				klog.V(2).Infof(
+					"Observing deletion for node %s, unneeded for %s (removal threshold was %s).",
+					nodeName, duration, info.removalThreshold,
+				)
+			} else {
+				klog.V(6).Infof(
+					"Observing deletion for node %s, unneeded for %s (removal threshold was %s).",
+					nodeName, duration, info.removalThreshold,
+				)
+			}
+			delete(t.unneededNodes, nodeName)
+		}
+	}
+	if klog.V(6).Enabled() {
+		for nodeName := range t.unneededNodes {
+			klog.Infof("Node %q remains in unneeded list (not scaled down). Continuing to track latency.", nodeName)
+		}
+	}
+}
+
+// getTrackedNodes returns the names of all nodes currently tracked as unneeded.
+func (t *NodeLatencyTracker) getTrackedNodes() []string {
+	return slices.Collect(maps.Keys(t.unneededNodes))
+}
+
+// CleanUp cleans up internal structures.
+func (t *NodeLatencyTracker) CleanUp() {
+	if t.wrapped != nil {
+		t.wrapped.CleanUp()
+	}
+}
Original file line number	Diff line number	Diff line change
`@@ -358,6 +358,8 @@ type AutoscalingOptions struct {`
`358`	`358`	`CapacitybufferPodInjectionEnabled bool`
`359`	`359`	`// MaxNodeSkipEvalTimeTrackerEnabled is used to enabled/disable the tracking of maximum evaluation time of a node being skipped during ScaleDown.`
`360`	`360`	`MaxNodeSkipEvalTimeTrackerEnabled bool`
	`361`	`+ // NodeRemovalLatencyTrackingEnabled is used to enable/disable node removal latency tracking.`
	`362`	`+ NodeRemovalLatencyTrackingEnabled bool`
`361`	`363`	`}`
`362`	`364`
`363`	`365`	`// KubeClientOptions specify options for kube client`
Original file line number	Diff line number	Diff line change
`@@ -233,6 +233,7 @@ var (`
`233`	`233`	`nodeDeletionCandidateTTL = flag.Duration("node-deletion-candidate-ttl", time.Duration(0), "Maximum time a node can be marked as removable before the marking becomes stale. This sets the TTL of Cluster-Autoscaler's state if the Cluste-Autoscaler deployment becomes inactive")`
`234`	`234`	`capacitybufferControllerEnabled = flag.Bool("capacity-buffer-controller-enabled", false, "Whether to enable the default controller for capacity buffers or not")`
`235`	`235`	`capacitybufferPodInjectionEnabled = flag.Bool("capacity-buffer-pod-injection-enabled", false, "Whether to enable pod list processor that processes ready capacity buffers and injects fake pods accordingly")`
	`236`	`+ nodeRemovalLatencyTrackingEnabled = flag.Bool("node-removal-latency-tracking-enabled", false, "Whether to track latency from when an unneeded node is eligible for scale down until it is removed or needed again.")`
`236`	`237`	`maxNodeSkipEvalTimeTrackerEnabled = flag.Bool("max-node-skip-eval-time-tracker-enabled", false, "Whether to enable the tracking of the maximum time of node being skipped during ScaleDown")`
`237`	`238`
`238`	`239`	`// Deprecated flags`
`@@ -425,6 +426,7 @@ func createAutoscalingOptions() config.AutoscalingOptions {`
`425`	`426`	`NodeDeletionCandidateTTL: *nodeDeletionCandidateTTL,`
`426`	`427`	`CapacitybufferControllerEnabled: *capacitybufferControllerEnabled,`
`427`	`428`	`CapacitybufferPodInjectionEnabled: *capacitybufferPodInjectionEnabled,`
	`429`	`+ NodeRemovalLatencyTrackingEnabled: *nodeRemovalLatencyTrackingEnabled,`
`428`	`430`	`MaxNodeSkipEvalTimeTrackerEnabled: *maxNodeSkipEvalTimeTrackerEnabled,`
`429`	`431`	`}`
`430`	`432`	`}`