Add custom tokenizer support

## Summary
Allow users to provide a custom tokenizer for text processing instead of using the built-in `String#word_hash` method.

## Motivation
From [classifier-reborn#131](https://github.com/jekyll/classifier-reborn/issues/131):

The current tokenization is hardcoded:
```ruby
str.gsub(/[^\w\s]/, '').downcase.split
```

This doesn't work well for:
- **CJK languages** (Chinese, Japanese, Korean) - require specialized tokenizers like [TinySegmenter](https://github.com/6/tiny_segmenter)
- **N-gram based classification** - phrases like "New York" get split and "New" may be filtered as a stopword
- **Domain-specific text** - medical, legal, or technical text may need custom tokenization rules

## Proposed API

```ruby
# Lambda-based tokenizer
classifier = Classifier::Bayes.new('Spam', 'Ham', 
  tokenizer: ->(text) { MySegmenter.segment(text) }
)

# Or a tokenizer class
class JapaneseTokenizer
  def tokenize(text)
    TinySegmenter.new.segment(text)
  end
end

classifier = Classifier::Bayes.new('Spam', 'Ham',
  tokenizer: JapaneseTokenizer.new
)
```

## Affected Classes
- `Classifier::Bayes`
- `Classifier::LSI`
- `Classifier::TFIDF`
- `Classifier::LogisticRegression`

## Related
- classifier-reborn#131: https://github.com/jekyll/classifier-reborn/issues/131
- classifier-reborn#176: https://github.com/jekyll/classifier-reborn/issues/176 (Chinese word length)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add custom tokenizer support #118

Summary

Motivation

Proposed API

Affected Classes

Related

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Add custom tokenizer support #118

Description

Summary

Motivation

Proposed API

Affected Classes

Related

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions