facebookresearch · Sanjib-ac · Jul 25, 2025 · mnorris11 · Jul 25, 2025 · mnorris11
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -51,6 +51,15 @@ project(faiss
   DESCRIPTION "A library for efficient similarity search and clustering of dense vectors."
   HOMEPAGE_URL "https://github.com/facebookresearch/faiss"
   LANGUAGES ${FAISS_LANGUAGES})
+
+# Force OpenMP_CUDA so MSVC+CUDA builds don’t abort when FAISS_ENABLE_GPU=ON
+if(FAISS_ENABLE_GPU)
+set(OpenMP_CUDA_FOUND TRUE CACHE BOOL "Force OpenMP CUDA lookup" FORCE)
+set(OpenMP_CUDA_FLAGS "" CACHE STRING "Empty OpenMP CUDA flags" FORCE)
+set(OpenMP_CUDA_LIB_NAMES "" CACHE STRING "Empty OpenMP CUDA libs" FORCE)
+endif()
+
+
 include(GNUInstallDirs)
 
 set(CMAKE_CXX_STANDARD 17)

diff --git a/faiss/CMakeLists.txt b/faiss/CMakeLists.txt
@@ -377,7 +377,13 @@ if(FAISS_USE_LTO)
   endif()
 endif()
 
-find_package(OpenMP REQUIRED)
+#find_package(OpenMP REQUIRED)
+find_package(OpenMP REQUIRED COMPONENTS CXX)
+find_package(OpenMP OPTIONAL_COMPONENTS CUDA)
+if(NOT OpenMP_CUDA_FOUND AND FAISS_ENABLE_GPU)
+	message(WARNING "OpenMP CUDA‐offload not found; building without it.")
+endif()
+
 target_link_libraries(faiss PRIVATE OpenMP::OpenMP_CXX)
 target_link_libraries(faiss_avx2 PRIVATE OpenMP::OpenMP_CXX)
 target_link_libraries(faiss_avx512 PRIVATE OpenMP::OpenMP_CXX)

diff --git a/faiss/gpu/impl/IVFPQ.cu b/faiss/gpu/impl/IVFPQ.cu
@@ -155,7 +155,7 @@ void IVFPQ::appendVectors_(
         // (vec x numSubQuantizer x dimPerSubQuantizer)
         // transpose to
         // (numSubQuantizer x vec x dimPerSubQuantizer)
-        auto residualsView = ivfCentroidResiduals.view<3>(
+        auto residualsView = ivfCentroidResiduals.template view<3>(
                 {ivfCentroidResiduals.getSize(0),
                  numSubQuantizers_,
                  dimPerSubQuantizer_});
@@ -217,7 +217,7 @@ void IVFPQ::appendVectors_(
 
         // Now, we have the nearest sub-q centroid for each slice of the
         // residual vector.
-        auto closestSubQIndex8View = closestSubQIndex8.view<2>(
+        auto closestSubQIndex8View = closestSubQIndex8.template view<2>(
                 {numSubQuantizers_, ivfCentroidResiduals.getSize(0)});
 
         // The encodings are finally a transpose of this data
@@ -443,7 +443,7 @@ void IVFPQ::precomputeCodes_(Index* quantizer) {
 
     // View (centroid id)(sub q)(code id) as
     //      (centroid id)(sub q * code id)
-    auto coarsePQProductTransposedView = coarsePQProductTransposed.view<2>(
+    auto coarsePQProductTransposedView = coarsePQProductTransposed.template view<2>(
             {ivfCentroids_.getSize(0),
              numSubQuantizers_ * numSubQuantizerCodes_});
 
@@ -453,7 +453,7 @@ void IVFPQ::precomputeCodes_(Index* quantizer) {
     {
         // Compute ||y_R||^2 by treating
         // (sub q)(code id)(sub dim) as (sub q * code id)(sub dim)
-        auto pqCentroidsMiddleCodeView = pqCentroidsMiddleCode_.view<2>(
+        auto pqCentroidsMiddleCodeView = pqCentroidsMiddleCode_.template view<2>(
                 {numSubQuantizers_ * numSubQuantizerCodes_,
                  dimPerSubQuantizer_});
         DeviceTensor<float, 1, true> subQuantizerNorms(
@@ -639,7 +639,7 @@ void IVFPQ::runPQPrecomputedCodes_(
     // These allocations within are only temporary, so release them when
     // we're done to maximize free space
     {
-        auto querySubQuantizerView = queries.view<3>(
+        auto querySubQuantizerView = queries.template view<3>(
                 {queries.getSize(0), numSubQuantizers_, dimPerSubQuantizer_});
         DeviceTensor<float, 3, true> queriesTransposed(
                 resources_,

diff --git a/faiss/gpu/impl/PQCodeDistances-inl.cuh b/faiss/gpu/impl/PQCodeDistances-inl.cuh
@@ -458,7 +458,7 @@ void runPQCodeDistancesMM(
     // Perform a batch MM:
     // (sub q) x {(q * c)(sub dim) x (sub dim)(code)} =>
     // (sub q) x {(q * c)(code)}
-    auto residualView3 = residual.view<3>(
+    auto residualView3 = residual.template view<3>(
             {pqCentroids.getSize(0),
              coarseIndices.getSize(0) * coarseIndices.getSize(1),
              pqCentroids.getSize(1)});
@@ -490,15 +490,15 @@ void runPQCodeDistancesMM(
                 {pqCentroids.getSize(0) * coarseIndices.getSize(0) *
                  coarseIndices.getSize(1)});
 
-        auto residualView2 = residual.view<2>(
+        auto residualView2 = residual.template view<2>(
                 {pqCentroids.getSize(0) * coarseIndices.getSize(0) *
                          coarseIndices.getSize(1),
                  pqCentroids.getSize(1)});
 
         runL2Norm(residualView2, true, residualNorms, true, stream);
 
         // Sum ||q - c||^2 along rows
-        auto residualDistanceView2 = residualDistance.view<2>(
+        auto residualDistanceView2 = residualDistance.template view<2>(
                 {pqCentroids.getSize(0) * coarseIndices.getSize(0) *
                          coarseIndices.getSize(1),
                  pqCentroids.getSize(2)});
@@ -509,7 +509,7 @@ void runPQCodeDistancesMM(
     // Transpose (sub q)(q * c)(code) to (q * c)(sub q)(code) (which
     // is where we build our output distances). L2 version of this has an added
     // -2 multiplicative factor
-    auto outCodeDistancesView = outCodeDistancesF.view<3>(
+    auto outCodeDistancesView = outCodeDistancesF.template view<3>(
             {coarseIndices.getSize(0) * coarseIndices.getSize(1),
              outCodeDistances.getSize(2),
              outCodeDistances.getSize(3)});
@@ -529,7 +529,7 @@ void runPQCodeDistancesMM(
 
         runTransposeAny(pqCentroids, 1, 2, pqCentroidsTranspose, stream);
 
-        auto pqCentroidsTransposeView = pqCentroidsTranspose.view<2>(
+        auto pqCentroidsTransposeView = pqCentroidsTranspose.template view<2>(
                 {pqCentroids.getSize(0) * pqCentroids.getSize(2),
                  pqCentroids.getSize(1)});
 
@@ -544,7 +544,7 @@ void runPQCodeDistancesMM(
 
         // View output as (q * c)(sub q * code), and add centroid norm to
         // each row
-        auto outDistancesCodeViewCols = outCodeDistancesView.view<2>(
+        auto outDistancesCodeViewCols = outCodeDistancesView.template view<2>(
                 {coarseIndices.getSize(0) * coarseIndices.getSize(1),
                  outCodeDistances.getSize(2) * outCodeDistances.getSize(3)});