Народ, такая хуйня. Надо проверить огромный текст на наличие повторов. Не на какой-то условный плагиат, а на повторение фраз внутри текста.
Скажем, на с. 42 написано "Lorem ipsum dolor sit amet", и это же есть на с. 1050. Надо отследить такие явления. Какие есть для этого приблуды? Или может костыли?
Что-то мне подсказывает, что можно просто нормализовать текст (в простейшем случае — привести символы к одному регистру и убрать знаки препинания, но можно и корни выделить с отбрасыванием не значимого мусора), а потом сжать его LZMA и изучить полученное дерево.
@mugiseyebrows это сколько в ымперских?
@goren около 1500 рубликов
@xenomorph Могу собрать на такое
@anonymous Не это
@anonymous Похожие фразы надо искать же