Corpus analytics / cultural spectrum
Частоты и иерархия текста
Символы, слова, предложения и абзацы как наблюдаемая структура human manifold.
Top characters
Тапни на символ — увидишь позицию, количество и долю корпуса.
Word frequency
Самые частые токены нормализованного корпуса.
Sentence starters
Какими словами чаще начинается предложение.
Sentence endings
Чем предложения чаще заканчиваются.
Word bigrams
Мини-фрагменты культурной траектории: токен → токен.