Lower vram usage for flux 2 text encoder. (#10887)

2025-11-25 11:58:39 -08:00
parent 18b79acba9
commit d196a905bb
3 changed files with 15 additions and 8 deletions
--- a/comfy/text_encoders/llama.py
+++ b/comfy/text_encoders/llama.py
@@ -434,8 +434,12 @@ class Llama2_(nn.Module):

        intermediate = None
        all_intermediate = None
+        only_layers = None
        if intermediate_output is not None:
-            if intermediate_output == "all":
+            if isinstance(intermediate_output, list):
+                all_intermediate = []
+                only_layers = set(intermediate_output)
+            elif intermediate_output == "all":
                all_intermediate = []
                intermediate_output = None
            elif intermediate_output < 0:
@@ -443,7 +447,8 @@ class Llama2_(nn.Module):

        for i, layer in enumerate(self.layers):
            if all_intermediate is not None:
-                all_intermediate.append(x.unsqueeze(1).clone())
+                if only_layers is None or (i in only_layers):
+                    all_intermediate.append(x.unsqueeze(1).clone())
            x = layer(
                x=x,
                attention_mask=mask,
@@ -457,7 +462,8 @@ class Llama2_(nn.Module):
            x = self.norm(x)

        if all_intermediate is not None:
-            all_intermediate.append(x.unsqueeze(1).clone())
+            if only_layers is None or ((i + 1) in only_layers):
+                all_intermediate.append(x.unsqueeze(1).clone())

        if all_intermediate is not None:
            intermediate = torch.cat(all_intermediate, dim=1)