GitHub - oip-searcher/tokenizer: Токенизация и группировка по леммам

Токенизация и группировка по леммам (ОИП, задание 2)

Студент: Станчу Данил Владимирович, группа 11-208

Запуск

Для запуска необходимо выполнить следующую команду в корне репозитория:

dotnet run --project src/Tokenizer.csproj

Входные данные должны быть заранее скачаны краулером (задание 1) и находиться в папке pages/.

Описание

Приложение обрабатывает сохранённые документы из папки pages/ и выполняет два шага:

Токенизация (выделение слов)

Из каждого файла извлекается текст (HTML очищается от разметки).
Текст разбивается на отдельные слова (токены).
Формируется общий список токенов со всех документов.

Фильтрация токенов:

без дубликатов (уникальные токены)
без союзов / предлогов / стоп-слов
без чисел
без “мусора” (слова с буквами и цифрами, обрывки разметки и т.п.)
отбрасываются слишком короткие токены (например, длина < 2)

Результат сохраняется в файл tokens.txt (один токен на строку).

Группировка токенов по леммам

Для каждого токена вычисляется “лемма” (нормализованная форма / основа слова).
Токены группируются по леммам.

Результат сохраняется в файл lemmas.txt в формате:

<lemma> <token1> <token2> ... <tokenN>

Результат

После выполнения создаются файлы:

tokens.txt — список уникальных токенов
lemmas.txt — группы токенов по леммам

Опционально (если включено сохранение по документам):

tokens_per_doc/ — токены по каждому документу
lemmas_per_doc/ — леммы по каждому документу

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
Tokenizer.sln		Tokenizer.sln

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Токенизация и группировка по леммам (ОИП, задание 2)

Запуск

Описание

Результат

About

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Токенизация и группировка по леммам (ОИП, задание 2)

Запуск

Описание

Результат

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Contributors

Uh oh!

Languages