fix mask for linear attention

lucidrains · Apr 8, 2022 · 8e0d2fd · 8e0d2fd
1 parent 50bb27c
commit 8e0d2fd
Show file tree

Hide file tree

Showing 2 changed files with 3 additions and 2 deletions.
diff --git a/flash_pytorch/flash_pytorch.py b/flash_pytorch/flash_pytorch.py
@@ -284,7 +284,8 @@ def forward(
         # mask out linear attention keys
 
         if exists(mask):
-            lin_k = lin_k.masked_fill(~mask, 0.)
+            lin_mask = rearrange(mask, '... -> ... 1')
+            lin_k = lin_k.masked_fill(~lin_mask, 0.)
 
         # rotate queries and keys
 

diff --git a/setup.py b/setup.py
@@ -3,7 +3,7 @@
 setup(
   name = 'FLASH-pytorch',
   packages = find_packages(exclude=[]),
-  version = '0.1.1',
+  version = '0.1.2',
   license='MIT',
   description = 'FLASH - Transformer Quality in Linear Time - Pytorch',
   author = 'Phil Wang',