Merge pull request #21 from smartscanapp/update/dino

dev-diaries41 · web-flow · commit 1c4dd0456816 · 2025-11-22T10:50:41.000Z
Added dino image embedding provider
diff --git a/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/clip/ClipImageEmbedder.kt b/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/clip/ClipImageEmbedder.kt
@@ -3,8 +3,10 @@ package com.fpf.smartscansdk.ml.models.providers.embeddings.clip
 import android.app.Application
 import android.content.Context
 import android.graphics.Bitmap
+import androidx.core.graphics.get
 import com.fpf.smartscansdk.core.embeddings.ImageEmbeddingProvider
 import com.fpf.smartscansdk.core.embeddings.normalizeL2
+import com.fpf.smartscansdk.core.media.centerCrop
 import com.fpf.smartscansdk.core.processors.BatchProcessor
 import com.fpf.smartscansdk.ml.data.FilePath
 import com.fpf.smartscansdk.ml.data.ModelSource
@@ -14,13 +16,20 @@ import com.fpf.smartscansdk.ml.models.OnnxModel
 import com.fpf.smartscansdk.ml.models.FileOnnxLoader
 import com.fpf.smartscansdk.ml.models.ResourceOnnxLoader
 import kotlinx.coroutines.*
+import java.nio.ByteBuffer
+import java.nio.ByteOrder
 import java.nio.FloatBuffer
 
 // Using ModelSource enables using with bundle model or local model which has been downloaded
-class ClipImageEmbedder(
-    private val context: Context,
-    modelSource: ModelSource,
-) : ImageEmbeddingProvider {
+class ClipImageEmbedder(private val context: Context, modelSource: ModelSource, ) : ImageEmbeddingProvider {
+    companion object {
+        const val DIM_BATCH_SIZE = 1
+        const val DIM_PIXEL_SIZE = 3
+        const val IMAGE_SIZE_X = 224
+        const val IMAGE_SIZE_Y = 224
+        val MEAN = floatArrayOf(0.48145467f, 0.4578275f, 0.40821072f)
+        val STD  = floatArrayOf(0.26862955f, 0.2613026f, 0.2757771f)
+    }
     private val model: OnnxModel = when(modelSource){
         is FilePath -> OnnxModel(FileOnnxLoader(modelSource.path))
         is ResourceId -> OnnxModel(ResourceOnnxLoader(context.resources, modelSource.resId))
@@ -36,7 +45,7 @@ class ClipImageEmbedder(
     override suspend fun embed(data: Bitmap): FloatArray = withContext(Dispatchers.Default) {
         if (!isInitialized()) throw IllegalStateException("Model not initialized")
 
-        val inputShape = longArrayOf(ClipConfig.DIM_BATCH_SIZE.toLong(), ClipConfig.DIM_PIXEL_SIZE.toLong(), ClipConfig.IMAGE_SIZE_X.toLong(), ClipConfig.IMAGE_SIZE_Y.toLong())
+        val inputShape = longArrayOf(DIM_BATCH_SIZE.toLong(), DIM_PIXEL_SIZE.toLong(), IMAGE_SIZE_X.toLong(), IMAGE_SIZE_Y.toLong())
         val imgData: FloatBuffer = preProcess(data)
         val inputName = model.getInputNames()?.firstOrNull() ?: throw IllegalStateException("Model inputs not available")
         val output = model.run(mapOf(inputName to TensorData.FloatBufferTensor(imgData, inputShape)))
@@ -64,4 +73,27 @@ class ClipImageEmbedder(
         closed = true
         (model as? AutoCloseable)?.close()
     }
+
+    private fun preProcess(bitmap: Bitmap): FloatBuffer {
+        val cropped = centerCrop(bitmap, IMAGE_SIZE_X)
+        val numFloats = DIM_BATCH_SIZE * DIM_PIXEL_SIZE * IMAGE_SIZE_Y * IMAGE_SIZE_X
+        val byteBuffer = ByteBuffer.allocateDirect(numFloats * 4).order(ByteOrder.nativeOrder())
+        val floatBuffer = byteBuffer.asFloatBuffer()
+        for (c in 0 until DIM_PIXEL_SIZE) {
+            for (y in 0 until IMAGE_SIZE_Y) {
+                for (x in 0 until IMAGE_SIZE_X) {
+                    val px = cropped[x, y]
+                    val v = when (c) {
+                        0 -> (px shr 16 and 0xFF) / 255f  // R
+                        1 -> (px shr  8 and 0xFF) / 255f  // G
+                        else -> (px and 0xFF) / 255f  // B
+                    }
+                    val norm = (v - MEAN[c]) / STD[c]
+                    floatBuffer.put(norm)
+                }
+            }
+        }
+        floatBuffer.rewind()
+        return floatBuffer
+    }
 }
diff --git a/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/clip/Constants.kt b/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/clip/Constants.kt
diff --git a/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/clip/PreProcess.kt b/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/clip/PreProcess.kt
diff --git a/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/dino/DinoV2SmallImageEmbedder.kt b/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/dino/DinoV2SmallImageEmbedder.kt
@@ -0,0 +1,107 @@
+package com.fpf.smartscansdk.ml.models.providers.embeddings.dino
+
+import android.app.Application
+import android.content.Context
+import android.graphics.Bitmap
+import androidx.core.graphics.get
+import com.fpf.smartscansdk.core.embeddings.ImageEmbeddingProvider
+import com.fpf.smartscansdk.core.embeddings.normalizeL2
+import com.fpf.smartscansdk.core.media.centerCrop
+import com.fpf.smartscansdk.core.processors.BatchProcessor
+import com.fpf.smartscansdk.ml.data.FilePath
+import com.fpf.smartscansdk.ml.data.ModelSource
+import com.fpf.smartscansdk.ml.data.ResourceId
+import com.fpf.smartscansdk.ml.data.TensorData
+import com.fpf.smartscansdk.ml.models.FileOnnxLoader
+import com.fpf.smartscansdk.ml.models.OnnxModel
+import com.fpf.smartscansdk.ml.models.ResourceOnnxLoader
+import kotlinx.coroutines.Dispatchers
+import kotlinx.coroutines.withContext
+import java.nio.ByteBuffer
+import java.nio.ByteOrder
+import java.nio.FloatBuffer
+import androidx.core.graphics.scale
+
+
+class DinoV2SmallImageEmbedder(
+    private val context: Context,
+    modelSource: ModelSource,
+) : ImageEmbeddingProvider {
+
+    companion object  {
+        const val DIM_BATCH_SIZE = 1
+        const val DIM_PIXEL_SIZE = 3
+        const val IMAGE_SIZE_X = 224
+        const val IMAGE_SIZE_Y = 224
+        val MEAN= floatArrayOf(0.485f, 0.456f, 0.406f)
+        val STD=floatArrayOf(0.229f, 0.224f, 0.225f)
+    }
+    private val model: OnnxModel = when(modelSource){
+        is FilePath -> OnnxModel(FileOnnxLoader(modelSource.path))
+        is ResourceId -> OnnxModel(ResourceOnnxLoader(context.resources, modelSource.resId))
+    }
+
+    override val embeddingDim: Int = 384
+    private var closed = false
+
+    override suspend fun initialize() = model.loadModel()
+
+    override fun isInitialized() = model.isLoaded()
+
+    override suspend fun embed(data: Bitmap): FloatArray = withContext(Dispatchers.Default) {
+        if (!isInitialized()) throw IllegalStateException("Model not initialized")
+
+        val inputShape = longArrayOf(DIM_BATCH_SIZE.toLong(), DIM_PIXEL_SIZE.toLong(), IMAGE_SIZE_X.toLong(), IMAGE_SIZE_Y.toLong())
+        val imgData: FloatBuffer = preProcess(data)
+        val inputName = model.getInputNames()?.firstOrNull() ?: throw IllegalStateException("Model inputs not available")
+        val output = model.run(mapOf(inputName to TensorData.FloatBufferTensor(imgData, inputShape)))
+        normalizeL2((output.values.first() as Array<FloatArray>)[0])
+    }
+
+    override suspend fun embedBatch(data: List<Bitmap>): List<FloatArray> {
+        val allEmbeddings = mutableListOf<FloatArray>()
+
+        val processor = object : BatchProcessor<Bitmap, FloatArray>(context = context.applicationContext as Application) {
+            override suspend fun onProcess(context: Context, item: Bitmap): FloatArray {
+                return embed(item)
+            }
+            override suspend fun onBatchComplete(context: Context, batch: List<FloatArray>) {
+                allEmbeddings.addAll(batch)
+            }
+        }
+
+        processor.run(data)
+        return allEmbeddings
+    }
+
+    override fun closeSession() {
+        if (closed) return
+        closed = true
+        (model as? AutoCloseable)?.close()
+    }
+
+    private fun preProcess(bitmap: Bitmap): FloatBuffer {
+        val cropped = centerCrop(bitmap, IMAGE_SIZE_X)
+        val numFloats = DIM_BATCH_SIZE * DIM_PIXEL_SIZE * IMAGE_SIZE_X * IMAGE_SIZE_Y
+        val byteBuffer = ByteBuffer.allocateDirect(numFloats * 4).order(ByteOrder.nativeOrder())
+        val floatBuffer = byteBuffer.asFloatBuffer()
+
+        for (c in 0 until DIM_PIXEL_SIZE) { // R, G, B channels
+            for (y in 0 until IMAGE_SIZE_X) {
+                for (x in 0 until IMAGE_SIZE_X) {
+                    val px = cropped[x, y]
+                    val v = when (c) {
+                        0 -> ((px shr 16) and 0xFF) / 255f // R
+                        1 -> ((px shr 8) and 0xFF) / 255f  // G
+                        else -> (px and 0xFF) / 255f       // B
+                    }
+                    val norm = (v - MEAN[c]) / STD[c]
+                    floatBuffer.put(norm)
+                }
+            }
+        }
+
+        floatBuffer.rewind()
+        return floatBuffer
+    }
+}
diff --git a/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/minilm/MiniLmTextEmbedder.kt b/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/minilm/MiniLmTextEmbedder.kt
@@ -25,7 +25,7 @@ class MiniLMTextEmbedder(
         is ResourceId -> OnnxModel(ResourceOnnxLoader(context.resources, modelSource.resId))
     }
 
-    private var tokenizer = SimpleTokenizer.fromRawResources(context, R.raw.minilm_vocab,  R.raw.minilm_tokenizer_config)
+    private var tokenizer = MiniLmTokenizer.fromRawResources(context, R.raw.minilm_vocab,  R.raw.minilm_tokenizer_config)
     private var closed = false
     override val embeddingDim: Int = 384 // MiniLM-L6-v2 dimension
 
diff --git a/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/minilm/Tokenizer.kt b/ml/src/main/java/com/fpf/smartscansdk/ml/models/providers/embeddings/minilm/Tokenizer.kt
@@ -7,7 +7,7 @@ import org.json.JSONObject
 import java.io.InputStreamReader
 import kotlin.collections.toLongArray
 
-class SimpleTokenizer(
+class MiniLmTokenizer(
     private val vocab: Map<String, Int>,
     private val maxLen: Int,
     private val doLowerCase: Boolean,
@@ -18,7 +18,7 @@ class SimpleTokenizer(
 ) {
 
     companion object {
-         fun fromRawResources(context: Context, vocabResId: Int, configResId: Int): SimpleTokenizer {
+         fun fromRawResources(context: Context, vocabResId: Int, configResId: Int): MiniLmTokenizer {
                 // Load vocab
                 val vocabMap: Map<String, Int> = context.resources.openRawResource(vocabResId)
                     .bufferedReader()
@@ -31,7 +31,7 @@ class SimpleTokenizer(
                 }
                 val configJson = JSONObject(configText)
 
-                return SimpleTokenizer(
+                return MiniLmTokenizer(
                     vocab = vocabMap,
                     maxLen = configJson.optInt("max_length", 128),
                     doLowerCase = configJson.optBoolean("do_lower_case", true),

Original file line number	Diff line number	Diff line change
`@@ -25,7 +25,7 @@ class MiniLMTextEmbedder(`
`25`	`25`	`is ResourceId -> OnnxModel(ResourceOnnxLoader(context.resources, modelSource.resId))`
`26`	`26`	`}`
`27`	`27`
`28`		`- private var tokenizer = SimpleTokenizer.fromRawResources(context, R.raw.minilm_vocab, R.raw.minilm_tokenizer_config)`
	`28`	`+ private var tokenizer = MiniLmTokenizer.fromRawResources(context, R.raw.minilm_vocab, R.raw.minilm_tokenizer_config)`
`29`	`29`	`private var closed = false`
`30`	`30`	`override val embeddingDim: Int = 384 // MiniLM-L6-v2 dimension`
`31`	`31`