fix SeqParallelMultiHeadCrossAttention for consistent results in distributed mode (#510)

2026-04-10 12:49:38 +02:00 · 2024-06-24 05:07:49 -04:00 · 2024-06-24 05:07:49 -04:00 · 00fef1d1af
commit 00fef1d1af
parent ea44eb6b9e
1 changed files with 1 additions and 1 deletions
--- a/opensora/models/layers/blocks.py
+++ b/opensora/models/layers/blocks.py
@ -499,7 +499,7 @@ class SeqParallelMultiHeadCrossAttention(MultiHeadCrossAttention):
        # shape:
        # q, k, v: [B, SUB_N, NUM_HEADS, HEAD_DIM]
-        q = self.q_linear(x).view(1, -1, self.num_heads, self.head_dim)
+        q = self.q_linear(x).view(B, -1, self.num_heads, self.head_dim)
        kv = self.kv_linear(cond).view(1, -1, 2, self.num_heads, self.head_dim)
        kv = split_forward_gather_backward(kv, get_sequence_parallel_group(), dim=3, grad_scale="down")
        k, v = kv.unbind(2)