Merge pull request #56 from m-misiura/add_slow_tokenizer

m-misiura · web-flow · commit d3a34fdacd3e · 2025-10-29T13:11:57.000Z
Update transformers to transformers==4.57.1; add slow tokenizers
diff --git a/detectors/huggingface/detector.py b/detectors/huggingface/detector.py
@@ -72,7 +72,11 @@ def initialize_model(self, model_files_path):
         """
         Load and configure the model and tokenizer.
         """
-        self.tokenizer = AutoTokenizer.from_pretrained(model_files_path, use_fast=True)
+        try:
+            self.tokenizer = AutoTokenizer.from_pretrained(model_files_path, use_fast=True)
+        except (ValueError, OSError, ImportError) as e:
+            logger.warning(f"Failed to load fast tokenizer: {e}. Falling back to slow tokenizer.")
+            self.tokenizer = AutoTokenizer.from_pretrained(model_files_path, use_fast=False)
         config = AutoConfig.from_pretrained(model_files_path)
         logger.info(f"Model Config: {config}")
 
diff --git a/detectors/huggingface/requirements.txt b/detectors/huggingface/requirements.txt
@@ -1 +1,3 @@
-transformers==4.50.0
+transformers==4.57.1
+sentencepiece==0.2.1
+tiktoken==0.12.0