Доказательство
Мы не “генерируем похожий текст”. Мы задаём полное обратимое соответствие между адресами и всеми 4096-символьными страницами.
Интуиция
Страница — это не строка UTF-8 байтов. Это 4096 позиций, и в каждой позиции один символ из нашего алфавита размера 256.
Значит страницу можно читать как число в системе счисления по основанию 256.
symbol₀ symbol₁ ... symbol₄₀₉₅ ↓ digit₀ digit₁ ... digit₄₀₉₅ ↓ integer in [0, 256^4096)
Alphabet
Page
Space
Строго
Пусть алфавит A содержит ровно 256 символов. Каждому символу соответствует индекс от 0 до 255.
index: A → {0,1,...,255}
Страница длины 4096 — это последовательность:
p = (p₀, p₁, ..., p₄₀₉₅), где pᵢ ∈ A
Определяем rank:
rank(p) = index(p₀)·256⁴⁰⁹⁵ + index(p₁)·256⁴⁰⁹⁴ + ... + index(p₄₀₉₅)
Это обычная запись числа в base-256. Поэтому:
0 ≤ rank(p) < 256^4096 = 2^32768
Почему это биекция
1. Нет дублей
Если две страницы отличаются хотя бы в одной позиции, то отличается хотя бы одна base-256 цифра. Значит числа разные.
2. Нет дыр
Любое число от 0 до 256⁴⁰⁹⁶−1 имеет ровно 4096 base-256 цифр после padding нулями слева.
3. Есть обратимость
unrank берёт число, 4096 раз извлекает младший байт mod 256 и восстанавливает символы по индексам.
unrank(rank(page)) = page rank(unrank(address)) = address
Потрогать
Введи короткий текст. Он будет нормализован, превращён в страницу и получит адрес.
Где здесь human-likeness?
Биекция сама по себе не делает текст человеческим. Она только гарантирует, что все страницы существуют и имеют адрес.
Human-shaped geometry добавляется сверху через score/energy:
cost = floor(-log₂(P) · scale)
То есть адресное пространство полное, а “человечность” — это рельеф поверх него.