Adding a clear top 12 bit utility (#87)

joserochh · web-flow · commit eecc3bf612d9 · 2021-10-29T16:22:39.000-06:00
* Testing clearTop12b function

* Adding ClearTop12b_64 function

* Fix typo

* Converting into template function

* Fixing formula

* Fixing description

* Adding template param descriptors
diff --git a/benchmark/bench-eltwise-reduce-mod.cpp b/benchmark/bench-eltwise-reduce-mod.cpp
@@ -239,9 +239,9 @@ static void BM_EltwiseReduceModMontAVX512BitShift52LT(
   AlignedVector64<uint64_t> output(input_size, 0);
 
   for (auto _ : state) {
-    EltwiseMontReduceModAVX512<52>(output.data(), input_a.data(),
-                                   input_b.data(), input_size, modulus, inv_mod,
-                                   r);
+    EltwiseMontReduceModAVX512<52, 46>(output.data(), input_a.data(),
+                                       input_b.data(), input_size, modulus,
+                                       inv_mod);
   }
 }
 
@@ -266,8 +266,8 @@ static void BM_EltwiseReduceModMontFormAVX512BitShift52LT(
   AlignedVector64<uint64_t> output(input_size, 0);
 
   for (auto _ : state) {
-    EltwiseMontgomeryFormAVX512<52>(output.data(), input_a.data(), R2_mod_q,
-                                    input_size, modulus, inv_mod, r);
+    EltwiseMontgomeryFormAVX512<52, 46>(output.data(), input_a.data(), R2_mod_q,
+                                        input_size, modulus, inv_mod);
   }
 }
 
@@ -292,8 +292,8 @@ static void BM_EltwiseReduceModMontFormAVX512BitShift64LT(
   AlignedVector64<uint64_t> output(input_size, 0);
 
   for (auto _ : state) {
-    EltwiseMontgomeryFormAVX512<64>(output.data(), input_a.data(), R2_mod_q,
-                                    input_size, modulus, inv_mod, r);
+    EltwiseMontgomeryFormAVX512<64, 46>(output.data(), input_a.data(), R2_mod_q,
+                                        input_size, modulus, inv_mod);
   }
 }
 
@@ -318,10 +318,10 @@ static void BM_EltwiseReduceModInOutMontFormAVX512BitShift52LT(
   AlignedVector64<uint64_t> output(input_size, 0);
 
   for (auto _ : state) {
-    EltwiseMontgomeryFormAVX512<52>(output.data(), input_a.data(), R2_mod_q,
-                                    input_size, modulus, inv_mod, r);
-    EltwiseMontgomeryFormAVX512<52>(output.data(), output.data(), 1ULL,
-                                    input_size, modulus, inv_mod, r);
+    EltwiseMontgomeryFormAVX512<52, 46>(output.data(), input_a.data(), R2_mod_q,
+                                        input_size, modulus, inv_mod);
+    EltwiseMontgomeryFormAVX512<52, 46>(output.data(), output.data(), 1ULL,
+                                        input_size, modulus, inv_mod);
   }
 }
 
diff --git a/hexl/eltwise/eltwise-reduce-mod-avx512.hpp b/hexl/eltwise/eltwise-reduce-mod-avx512.hpp
@@ -141,18 +141,20 @@ void EltwiseReduceModAVX512(uint64_t* result, const uint64_t* operand,
 
 /// @brief Returns Montgomery form of modular product ab mod q, computed via the
 ///  REDC algorithm, also known as Montgomery reduction.
+/// @tparam BitShift denotes the operational length, in bits, of the operands
+/// and result values.
+/// @tparam r defines the value of R, being R = 2^r. R > modulus.
 /// @param[in] a input vector. T = ab in the range [0, Rq − 1].
 /// @param[in] b input vector.
-/// @param[in] r 2 pow r is R.
-/// @param[in] modulus with R = 2^r such that gcd(R, modulus) = 1. R > modulus.
+/// @param[in] modulus such that gcd(R, modulus) = 1.
 /// @param[in] inv_mod in [0, R − 1] such that q*v_inv_mod ≡ −1 mod R,
 /// @param[in] n number of elements in input vector.
 /// @param[out] result unsigned long int vector in the range [0, q − 1] such
 /// that S ≡ TR^−1 mod q
-template <int BitShift>
+template <int BitShift, int r>
 void EltwiseMontReduceModAVX512(uint64_t* result, const uint64_t* a,
                                 const uint64_t* b, uint64_t n, uint64_t modulus,
-                                uint64_t inv_mod, int r) {
+                                uint64_t inv_mod) {
   HEXL_CHECK(a != nullptr, "Require operand a != nullptr");
   HEXL_CHECK(b != nullptr, "Require operand b != nullptr");
   HEXL_CHECK(n != 0, "Require n != 0");
@@ -192,7 +194,6 @@ void EltwiseMontReduceModAVX512(uint64_t* result, const uint64_t* a,
   const __m512i* v_a = reinterpret_cast<const __m512i*>(a);
   const __m512i* v_b = reinterpret_cast<const __m512i*>(b);
   __m512i* v_result = reinterpret_cast<__m512i*>(result);
-  __m512i v_mod_R_mask = _mm512_set1_epi64(mod_R_mask);
   __m512i v_modulus = _mm512_set1_epi64(modulus);
   __m512i v_inv_mod = _mm512_set1_epi64(inv_mod);
   __m512i v_prod_rs = _mm512_set1_epi64(prod_rs);
@@ -210,8 +211,8 @@ void EltwiseMontReduceModAVX512(uint64_t* result, const uint64_t* a,
       v_T_lo = _mm512_and_epi64(v_T_lo, v_prod_rs);
     }
 
-    __m512i v_c = _mm512_hexl_montgomery_reduce<BitShift>(
-        v_T_hi, v_T_lo, v_modulus, r, v_mod_R_mask, v_inv_mod, v_prod_rs);
+    __m512i v_c = _mm512_hexl_montgomery_reduce<BitShift, r>(
+        v_T_hi, v_T_lo, v_modulus, v_inv_mod, v_prod_rs);
     HEXL_CHECK_BOUNDS(ExtractValues(v_c).data(), 8, modulus,
                       "v_op exceeds bound " << modulus);
     _mm512_storeu_si512(v_result, v_c);
@@ -223,18 +224,20 @@ void EltwiseMontReduceModAVX512(uint64_t* result, const uint64_t* a,
 
 /// @brief Returns Montgomery form of a mod q, computed via the REDC algorithm,
 /// also known as Montgomery reduction.
+/// @tparam BitShift denotes the operational length, in bits, of the operands
+/// and result values.
+/// @tparam r defines the value of R, being R = 2^r. R > modulus.
 /// @param[in] a input vector. T = a(R^2 mod q) in the range [0, Rq − 1].
 /// @param[in] R2_mod_q R^2 mod q.
-/// @param[in] r 2 pow r is R.
-/// @param[in] modulus with R = 2^r such that gcd(R, modulus) = 1. R > modulus.
+/// @param[in] modulus such that gcd(R, modulus) = 1.
 /// @param[in] inv_mod in [0, R − 1] such that q*v_inv_mod ≡ −1 mod R,
 /// @param[in] n number of elements in input vector.
 /// @param[out] result unsigned long int vector in the range [0, q − 1] such
 /// that S ≡ TR^−1 mod q
-template <int BitShift>
+template <int BitShift, int r>
 void EltwiseMontgomeryFormAVX512(uint64_t* result, const uint64_t* a,
                                  uint64_t R2_mod_q, uint64_t n,
-                                 uint64_t modulus, uint64_t inv_mod, int r) {
+                                 uint64_t modulus, uint64_t inv_mod) {
   HEXL_CHECK(a != nullptr, "Require operand a != nullptr");
   HEXL_CHECK(n != 0, "Require n != 0");
   HEXL_CHECK(modulus > 1, "Require modulus > 1");
@@ -271,7 +274,6 @@ void EltwiseMontgomeryFormAVX512(uint64_t* result, const uint64_t* a,
 
   const __m512i* v_a = reinterpret_cast<const __m512i*>(a);
   __m512i* v_result = reinterpret_cast<__m512i*>(result);
-  __m512i v_mod_R_mask = _mm512_set1_epi64(mod_R_mask);
   __m512i v_b = _mm512_set1_epi64(R2_mod_q);
   __m512i v_modulus = _mm512_set1_epi64(modulus);
   __m512i v_inv_mod = _mm512_set1_epi64(inv_mod);
@@ -289,8 +291,8 @@ void EltwiseMontgomeryFormAVX512(uint64_t* result, const uint64_t* a,
       v_T_lo = _mm512_and_epi64(v_T_lo, v_prod_rs);
     }
 
-    __m512i v_c = _mm512_hexl_montgomery_reduce<BitShift>(
-        v_T_hi, v_T_lo, v_modulus, r, v_mod_R_mask, v_inv_mod, v_prod_rs);
+    __m512i v_c = _mm512_hexl_montgomery_reduce<BitShift, r>(
+        v_T_hi, v_T_lo, v_modulus, v_inv_mod, v_prod_rs);
     HEXL_CHECK_BOUNDS(ExtractValues(v_c).data(), 8, modulus,
                       "v_op exceeds bound " << modulus);
     _mm512_storeu_si512(v_result, v_c);
diff --git a/hexl/util/avx512-util.hpp b/hexl/util/avx512-util.hpp
@@ -62,6 +62,13 @@ inline std::vector<double> ExtractValues(__m512d x) {
   return ret;
 }
 
+// Returns lower NumBits bits from a 64-bit value
+template <int NumBits>
+inline __m512i ClearTopBits64(__m512i x) {
+  const __m512i low52b_mask = _mm512_set1_epi64((1ULL << NumBits) - 1);
+  return _mm512_and_epi64(x, low52b_mask);
+}
+
 // Multiply packed unsigned BitShift-bit integers in each 64-bit element of x
 // and y to form a 2*BitShift-bit intermediate result.
 // Returns the high BitShift-bit unsigned integer from the intermediate result
@@ -231,8 +238,7 @@ inline __m512i _mm512_hexl_mullo_add_lo_epi<52>(__m512i x, __m512i y,
   __m512i result = _mm512_madd52lo_epu64(x, y, z);
 
   // Clear high 12 bits from result
-  const __m512i two_pow52_min1 = _mm512_set1_epi64((1ULL << 52) - 1);
-  result = _mm512_and_epi64(result, two_pow52_min1);
+  result = ClearTopBits64<52>(result);
   return result;
 }
 #endif
@@ -372,16 +378,15 @@ inline __m512i _mm512_hexl_cmple_epu64(__m512i a, __m512i b,
 
 // Returns Montgomery form of ab mod q, computed via the REDC algorithm,
 // also known as Montgomery reduction.
-// Inputs: r and q with R = 2^r such that gcd(R, q) = 1. R > q.
+// Template: r with R = 2^r
+// Inputs: q such that gcd(R, q) = 1. R > q.
 //         v_inv_mod in [0, R − 1] such that q*v_inv_mod ≡ −1 mod R,
 //         T = ab in the range [0, Rq − 1].
 // T_hi and T_lo for BitShift = 64 should be given in 63 bits.
 // Output: Integer S in the range [0, q − 1] such that S ≡ TR^−1 mod q
-template <int BitShift>
+template <int BitShift, int r>
 inline __m512i _mm512_hexl_montgomery_reduce(__m512i T_hi, __m512i T_lo,
-                                             __m512i q, int r,
-                                             __m512i v_mod_R_msk,
-                                             __m512i v_inv_mod,
+                                             __m512i q, __m512i v_inv_mod,
                                              __m512i v_rs_or_msk) {
   HEXL_CHECK(BitShift == 52 || BitShift == 64,
              "Invalid bitshift " << BitShift << "; need 52 or 64");
@@ -390,9 +395,9 @@ inline __m512i _mm512_hexl_montgomery_reduce(__m512i T_hi, __m512i T_lo,
   if (BitShift == 52) {
     // Operation:
     // m ← ((T mod R)N′) mod R | m ← ((T & mod_R_mask)*v_inv_mod) & mod_R_mask
-    __m512i m = _mm512_and_epi64(T_lo, v_mod_R_msk);
+    __m512i m = ClearTopBits64<r>(T_lo);
     m = _mm512_hexl_mullo_epi<BitShift>(m, v_inv_mod);
-    m = _mm512_and_epi64(m, v_mod_R_msk);
+    m = ClearTopBits64<r>(m);
 
     // Operation: t ← (T + mN) / R = (T + m*q) >> r
     // Hi part
@@ -415,9 +420,9 @@ inline __m512i _mm512_hexl_montgomery_reduce(__m512i T_hi, __m512i T_lo,
 
   // Operation:
   // m ← ((T mod R)N′) mod R | m ← ((T & mod_R_mask)*v_inv_mod) & mod_R_mask
-  __m512i m = _mm512_and_epi64(T_lo, v_mod_R_msk);
+  __m512i m = ClearTopBits64<r>(T_lo);
   m = _mm512_hexl_mullo_epi<BitShift>(m, v_inv_mod);
-  m = _mm512_and_epi64(m, v_mod_R_msk);
+  m = ClearTopBits64<r>(m);
 
   __m512i mq_hi = _mm512_hexl_mulhi_epi<BitShift>(m, q);
   __m512i mq_lo = _mm512_hexl_mullo_epi<BitShift>(m, q);
@@ -461,9 +466,7 @@ inline __m512i _mm512_hexl_barrett_reduce64(__m512i x, __m512i q,
     if (mask != 0) {
       // values above 2^52
       __m512i x_hi = _mm512_srli_epi64(x, static_cast<unsigned int>(52ULL));
-      __m512i x_intr = _mm512_slli_epi64(x, static_cast<unsigned int>(12ULL));
-      __m512i x_lo =
-          _mm512_srli_epi64(x_intr, static_cast<unsigned int>(12ULL));
+      __m512i x_lo = ClearTopBits64<52>(x);
 
       // c1 = floor(U / 2^{n + beta})
       __m512i c1_lo =
diff --git a/test/test-avx512-util.cpp b/test/test-avx512-util.cpp
@@ -379,23 +379,21 @@ TEST(AVX512, _mm512_hexl_montgomery_reduce52) {
 
     uint64_t modulus = 5;
     int r = 3;
-    uint64_t R = (1ULL << r);
     uint64_t prod_rs = (1ULL << (52 - r));
     uint64_t inv_mod = HenselLemma2adicRoot(r, modulus);
 
     // mod_R_mask[63:r] all zeros & mod_R_mask[r-1:0] all ones
-    __m512i v_mod_R_mask = _mm512_set1_epi64(R - 1);
     __m512i v_modulus = _mm512_set1_epi64(modulus);
     __m512i v_inv_mod = _mm512_set1_epi64(inv_mod);
     __m512i v_prod_rs = _mm512_set1_epi64(prod_rs);
 
-    __m512i _c = _mm512_hexl_montgomery_reduce<52>(
-        T_hi, T_lo, v_modulus, r, v_mod_R_mask, v_inv_mod, v_prod_rs);
+    __m512i _c = _mm512_hexl_montgomery_reduce<52, 3>(T_hi, T_lo, v_modulus,
+                                                      v_inv_mod, v_prod_rs);
     AssertEqual(_c, expected_out);
 
     // Out of Montgomery form
-    _c = _mm512_hexl_montgomery_reduce<52>(T_hi, _c, v_modulus, r, v_mod_R_mask,
-                                           v_inv_mod, v_prod_rs);
+    _c = _mm512_hexl_montgomery_reduce<52, 3>(T_hi, _c, v_modulus, v_inv_mod,
+                                              v_prod_rs);
 
     AssertEqual(_c, expected_c_out);
   }
@@ -419,16 +417,13 @@ TEST(AVX512, _mm512_hexl_montgomery_reduce52) {
     // Also, for r = 46 and N = 67280421310725 then N' = 62463730494515
     __m512i T_hi = _mm512_set_epi64(559639348720ULL, 0, 0, 0, 0, 0, 0, 0);
     __m512i T_lo = _mm512_set_epi64(1832906312477596ULL, 0, 0, 0, 0, 0, 0, 0);
-
-    int r = 46;
     __m512i v_modulus = _mm512_set1_epi64(67280421310725);
     __m512i v_inv_mod = _mm512_set1_epi64(62463730494515);
-    __m512i v_mod_R_mask = _mm512_set1_epi64(70368744177663);
     __m512i v_prod_rs = _mm512_set1_epi64(64);
 
     // 52 bits
-    __m512i c = _mm512_hexl_montgomery_reduce<52>(
-        T_hi, T_lo, v_modulus, r, v_mod_R_mask, v_inv_mod, v_prod_rs);
+    __m512i c = _mm512_hexl_montgomery_reduce<52, 46>(T_hi, T_lo, v_modulus,
+                                                      v_inv_mod, v_prod_rs);
     AssertEqual(c, expected_out);
   }
 
@@ -437,18 +432,16 @@ TEST(AVX512, _mm512_hexl_montgomery_reduce52) {
     int r = 51;
     uint64_t modulus = 2251799813684809;
     uint64_t inv_mod = HenselLemma2adicRoot(r, modulus);
-    uint64_t mod_R_mask = (1ULL << r) - 1;
     uint64_t prod_rs = (1ULL << (52 - r));
     __m512i expected_out =
         _mm512_set_epi64(1832909426971103, 0, 0, 0, 0, 0, 0, 0);
     __m512i T_hi = _mm512_set_epi64(5446ULL, 0, 0, 0, 0, 0, 0, 0);
     __m512i T_lo = _mm512_set_epi64(3006504763740625ULL, 0, 0, 0, 0, 0, 0, 0);
     __m512i v_modulus = _mm512_set1_epi64(modulus);
     __m512i v_inv_mod = _mm512_set1_epi64(inv_mod);
-    __m512i v_mod_R_mask = _mm512_set1_epi64(mod_R_mask);
     __m512i v_prod_rs = _mm512_set1_epi64(prod_rs);
-    __m512i c = _mm512_hexl_montgomery_reduce<52>(
-        T_hi, T_lo, v_modulus, r, v_mod_R_mask, v_inv_mod, v_prod_rs);
+    __m512i c = _mm512_hexl_montgomery_reduce<52, 51>(T_hi, T_lo, v_modulus,
+                                                      v_inv_mod, v_prod_rs);
     AssertEqual(c, expected_out);
   }
 }
@@ -465,11 +458,8 @@ TEST(AVX512, _mm512_hexl_montgomery_reduce64) {
     __m512i expected_out = _mm512_set_epi64(1546598034044, 0, 0, 0, 0, 0, 0, 0);
     __m512i T_hi = _mm512_set_epi64(559639348720ULL, 0, 0, 0, 0, 0, 0, 0);
     __m512i T_lo = _mm512_set_epi64(1832906312477596ULL, 0, 0, 0, 0, 0, 0, 0);
-
-    int r = 46;
     __m512i v_modulus = _mm512_set1_epi64(67280421310725);
     __m512i v_inv_mod = _mm512_set1_epi64(62463730494515);
-    __m512i v_mod_R_mask = _mm512_set1_epi64(70368744177663);
 
     // 64 bits
     uint64_t prod_rs = (1ULL << 63) - 1;
@@ -478,8 +468,8 @@ TEST(AVX512, _mm512_hexl_montgomery_reduce64) {
     T_hi = _mm512_set_epi64(273261400, 0, 0, 0, 0, 0, 0, 0);
     T_lo = _mm512_set_epi64(6847304339915631516, 0, 0, 0, 0, 0, 0, 0);
 
-    __m512i c = _mm512_hexl_montgomery_reduce<64>(
-        T_hi, T_lo, v_modulus, r, v_mod_R_mask, v_inv_mod, v_prod_rs);
+    __m512i c = _mm512_hexl_montgomery_reduce<64, 46>(T_hi, T_lo, v_modulus,
+                                                      v_inv_mod, v_prod_rs);
     AssertEqual(c, expected_out);
   }
 
@@ -488,7 +478,6 @@ TEST(AVX512, _mm512_hexl_montgomery_reduce64) {
     int r = 61;
     uint64_t modulus = 2305843009213693487;
     uint64_t inv_mod = HenselLemma2adicRoot(r, modulus);
-    uint64_t mod_R_mask = (1ULL << r) - 1ULL;
     uint64_t prod_rs = (1ULL << 63) - 1;
     __m512i expected_out =
         _mm512_set_epi64(59185395909485265, 0, 0, 0, 0, 0, 0, 0);
@@ -497,10 +486,9 @@ TEST(AVX512, _mm512_hexl_montgomery_reduce64) {
         _mm512_set_epi64(9074465024201096609ULL, 0, 0, 0, 0, 0, 0, 0);
     __m512i v_modulus = _mm512_set1_epi64(modulus);
     __m512i v_inv_mod = _mm512_set1_epi64(inv_mod);
-    __m512i v_mod_R_mask = _mm512_set1_epi64(mod_R_mask);
     __m512i v_prod_rs = _mm512_set1_epi64(prod_rs);
-    __m512i c = _mm512_hexl_montgomery_reduce<64>(
-        T_hi, T_lo, v_modulus, r, v_mod_R_mask, v_inv_mod, v_prod_rs);
+    __m512i c = _mm512_hexl_montgomery_reduce<64, 61>(T_hi, T_lo, v_modulus,
+                                                      v_inv_mod, v_prod_rs);
     AssertEqual(c, expected_out);
   }
 
@@ -509,18 +497,16 @@ TEST(AVX512, _mm512_hexl_montgomery_reduce64) {
     int r = 62;
     uint64_t modulus = 4611686018427387631;
     uint64_t inv_mod = HenselLemma2adicRoot(r, modulus);
-    uint64_t mod_R_mask = (1ULL << r) - 1;
     uint64_t prod_rs = (1ULL << 63) - 1;
     __m512i expected_out =
         _mm512_set_epi64(34747555017826833, 0, 0, 0, 0, 0, 0, 0);
     __m512i T_hi = _mm512_set_epi64(1ULL, 0, 0, 0, 0, 0, 0, 0);
     __m512i T_lo = _mm512_set_epi64(262710483011949601ULL, 0, 0, 0, 0, 0, 0, 0);
     __m512i v_modulus = _mm512_set1_epi64(modulus);
     __m512i v_inv_mod = _mm512_set1_epi64(inv_mod);
-    __m512i v_mod_R_mask = _mm512_set1_epi64(mod_R_mask);
     __m512i v_prod_rs = _mm512_set1_epi64(prod_rs);
-    __m512i c = _mm512_hexl_montgomery_reduce<64>(
-        T_hi, T_lo, v_modulus, r, v_mod_R_mask, v_inv_mod, v_prod_rs);
+    __m512i c = _mm512_hexl_montgomery_reduce<64, 62>(T_hi, T_lo, v_modulus,
+                                                      v_inv_mod, v_prod_rs);
     AssertEqual(c, expected_out);
   }
 }

Original file line number	Diff line number	Diff line change
`@@ -239,9 +239,9 @@ static void BM_EltwiseReduceModMontAVX512BitShift52LT(`
`239`	`239`	`AlignedVector64<uint64_t> output(input_size, 0);`
`240`	`240`
`241`	`241`	`for (auto _ : state) {`
`242`		`- EltwiseMontReduceModAVX512<52>(output.data(), input_a.data(),`
`243`		`- input_b.data(), input_size, modulus, inv_mod,`
`244`		`- r);`
	`242`	`+ EltwiseMontReduceModAVX512<52, 46>(output.data(), input_a.data(),`
	`243`	`+ input_b.data(), input_size, modulus,`
	`244`	`+ inv_mod);`
`245`	`245`	`}`
`246`	`246`	`}`
`247`	`247`
`@@ -266,8 +266,8 @@ static void BM_EltwiseReduceModMontFormAVX512BitShift52LT(`
`266`	`266`	`AlignedVector64<uint64_t> output(input_size, 0);`
`267`	`267`
`268`	`268`	`for (auto _ : state) {`
`269`		`- EltwiseMontgomeryFormAVX512<52>(output.data(), input_a.data(), R2_mod_q,`
`270`		`- input_size, modulus, inv_mod, r);`
	`269`	`+ EltwiseMontgomeryFormAVX512<52, 46>(output.data(), input_a.data(), R2_mod_q,`
	`270`	`+ input_size, modulus, inv_mod);`
`271`	`271`	`}`
`272`	`272`	`}`
`273`	`273`
`@@ -292,8 +292,8 @@ static void BM_EltwiseReduceModMontFormAVX512BitShift64LT(`
`292`	`292`	`AlignedVector64<uint64_t> output(input_size, 0);`
`293`	`293`
`294`	`294`	`for (auto _ : state) {`
`295`		`- EltwiseMontgomeryFormAVX512<64>(output.data(), input_a.data(), R2_mod_q,`
`296`		`- input_size, modulus, inv_mod, r);`
	`295`	`+ EltwiseMontgomeryFormAVX512<64, 46>(output.data(), input_a.data(), R2_mod_q,`
	`296`	`+ input_size, modulus, inv_mod);`
`297`	`297`	`}`
`298`	`298`	`}`
`299`	`299`
`@@ -318,10 +318,10 @@ static void BM_EltwiseReduceModInOutMontFormAVX512BitShift52LT(`
`318`	`318`	`AlignedVector64<uint64_t> output(input_size, 0);`
`319`	`319`
`320`	`320`	`for (auto _ : state) {`
`321`		`- EltwiseMontgomeryFormAVX512<52>(output.data(), input_a.data(), R2_mod_q,`
`322`		`- input_size, modulus, inv_mod, r);`
`323`		`- EltwiseMontgomeryFormAVX512<52>(output.data(), output.data(), 1ULL,`
`324`		`- input_size, modulus, inv_mod, r);`
	`321`	`+ EltwiseMontgomeryFormAVX512<52, 46>(output.data(), input_a.data(), R2_mod_q,`
	`322`	`+ input_size, modulus, inv_mod);`
	`323`	`+ EltwiseMontgomeryFormAVX512<52, 46>(output.data(), output.data(), 1ULL,`
	`324`	`+ input_size, modulus, inv_mod);`
`325`	`325`	`}`
`326`	`326`	`}`
`327`	`327`