Corpus analytics / cultural spectrum

Частоты и иерархия текста

Символы, слова, предложения и абзацы как наблюдаемая структура human manifold.

← библиотека

Top characters

Тапни на символ — увидишь позицию, количество и долю корпуса.


    

Word frequency

Самые частые токены нормализованного корпуса.

Sentence starters

Какими словами чаще начинается предложение.

Sentence endings

Чем предложения чаще заканчиваются.

Word bigrams

Мини-фрагменты культурной траектории: токен → токен.