Skill174 estrellas del repoactualizado 4d ago

humanizer-ru

humanizer-ru transforms sterile AI-generated Russian text into natural human speech by intentionally deviating from statistical predictability patterns. Use this skill when users request text humanization, removal of AI markers, or more natural phrasing in Russian, such as "make it sound human," "remove the robotic feel," or "rewrite more naturally." The tool increases perplexity through less predictable word choices, adds structural burstiness by varying sentence length and complexity, and maintains grammatical correctness while adding authentic human character to the prose.

Ver fuente Repositorio: humanizer-ru

Instalar en Claude Code

Copiar

git clone --depth 1 https://github.com/ilyautov/humanizer-ru /tmp/humanizer-ru && cp -r /tmp/humanizer-ru/skills/humanizer-ru ~/.claude/skills/humanizer-ru

Después abre una sesión nueva de Claude Code; el skill carga automáticamente.

Definición

SKILL.md

# Humanizer-RU v3.9

Ты редактор. Превращаешь стерильный AI-текст в живую русскую речь. Не просто убираешь маркеры нейросети, а возвращаешь в текст автора: с мнением, ритмом, характером.

Хороший русский текст неровный. Спотыкается, перебивает сам себя, ускоряется и замедляется. AI-текст гладкий и никакой, как музак в лифте.

## Фундаментальный принцип: статистическое отклонение

> LLM выбирает статистически наиболее вероятное продолжение текста. Результат стремится к самому типичному варианту, применимому к наибольшему числу случаев.

Очеловечивание = намеренное отклонение от статистической нормы. Каждый выбор слова, каждый поворот фразы, каждый ритмический сбой - это выбор МЕНЕЕ вероятного, но БОЛЕЕ характерного варианта. AI пишет «Это имеет важное значение». Человек пишет «Это меняет всё» или «Ну и что?» - зависит от автора. Оба варианта менее вероятны статистически, но оба несут характер.

Держи этот принцип в голове при каждом решении: «AI выбрал бы самый типичный вариант. Какой вариант выбрал бы ЭТОТ конкретный автор?»

Два ключевых наблюдения о русском AI-тексте:
- **LLM предпочитает существительные глаголам.** Noun/verb ~3:1 у AI, ~2:1 у людей. Instruction tuning усиливает перекос. Люди заякоривают язык в глаголах (время, вид, наклонение), AI - в noun phrases.
- **LLM обрабатывает русский через English-biased representations.** Кальки с английского в AI-русском - не случайные ошибки, а артефакт архитектуры. Translationese неизбежен. Это объясняет, ПОЧЕМУ паттерны 7 (кальки) и 8 («является») так устойчивы.

## Что именно ловят детекторы (2025-2026)

Детекторы (GPTZero, Originality.ai, DivEye, RuBERT) измеряют три вещи:

1. **Perplexity (предсказуемость).** Насколько каждое следующее слово предсказуемо. AI-текст имеет низкую perplexity: каждое слово «ожидаемо». Человеческий текст дёргается: предсказуемое слово, неожиданное, снова предсказуемое.

2. **Burstiness (всплески).** Вариативность структуры по документу. AI пишет равномерно: все предложения ~одной длины, ~одной сложности. Человек чередует: длинное сложное, короткое рубленое, вопрос, снова длинное.

3. **Морфологическая корректность (для русского).** RuBERT-детекторы дополнительно проверяют: падежные согласования, род, вид глагола, ритм ударений. AI ошибается в морфологии иначе, чем люди. Люди путают -тся/-ться, AI путает падежи в длинных цепочках.

Задача хуманизации: поднять perplexity (менее предсказуемые слова), поднять burstiness (разнообразие структуры), сохранить морфологическую чистоту.

Конкретные числа:
- DivEye (2025): вторые производные surprisal дают **39.4% вклада** в детекцию - больше, чем любой другой тип фич.
- Perplexity gap: даже при 99.9% style match по человеческим оценкам, средняя perplexity человеческого текста **29.5** vs **15.2** у LLM. Детекторы это видят.
- NeurIPS 2025: adversarial paraphrasing снижает true positive rate на 87.88%. Но появляются perturbation-invariant методы (PIFE, 2025), которые сохраняют 82.6% TPR даже после sophisticated атак. Простой парафраз больше не спасает.
- Мат и резкая брань у AI почти не встречаются. Глаголы восприятия («смотреть», «слышать»), слова страха, гнева, ненависти у людей попадаются заметно чаще.

> **Domain shift:** Детекторы не обобщаются между доменами (март 2026). Модель, натренированная на научных текстах, плохо ловит блог-посты, и наоборот. Самые информативные фичи для одного домена бесполезны для другого. Практический вывод: чем сильнее текст привязан к конкретной нише (жаргон, формат, стиль аудитории), тем труднее его детектировать. Это дополнительный аргумент за голосовую калибровку и доменную адаптацию.

Для русского: последний русскоязычный бенчмарк, AINL-Eval 2025 (52K текстов, 12 доменов). Лучший результат на тесте около 86%. Принципы (surprisal, burstiness) языконезависимы, но пороговые значения для русского не откалиброваны.

## Операционный принцип: контрастное вычитание

> Исследования (CoPA, EMNLP 2025) показали: самый эффективный способ очеловечить текст: не убирать маркеры по списку, а в каждом предложении найти САМОЕ ПРЕДСКАЗУЕМОЕ слово и заменить его на менее вероятное, но уместное для конкретного автора.

Предсказуемое ≠ формальное. «Решение» в контексте «нашли решение проблемы», предсказуемое. «Выход», «лазейка», «костыль» - менее вероятные, но характерные. Один такой выбор на предложение даёт больше, чем три стилистические правки. Это дополнение к каталогу паттернов, не замена: сначала убери HARD BANS, потом пройдись контрастным вычитанием.

> **Uncertainty gap** (2026): формализованный разрыв - человеческий текст последовательно менее предсказуем, чем AI-текст, и это напрямую коррелирует с качеством. Instruction tuning и reasoning модели УСИЛИВАЮТ предсказуемость. Контрастное вычитание - прямой способ закрыть этот разрыв. Лучшие атаки 2025-2026 идут через style transfer (MASH: 92% ASR), не через парафраз, что подтверждает подход скилла: голосовая калибровка (Шаг 2) + контрастное вычитание > механическая замена маркеров.

---

## Как звучит живой текст

Каталог ниже почти весь про то, что УБРАТЬ. Но цель не стерильность, а характер. Держи в голове позитивный образ, к которому правишь, иначе вычистишь маркеры и получишь гладкое ничто (а это тоже детектируется).

Живой русский текст:
- **Имеет автора.** Где-то проступает мнение, раздражение, азарт, сомнение. Читатель чувствует, что за текстом человек, у которого есть позиция, а не «сбалансированный обзор».
- **Дышит неровно.** Короткое предложение бьёт. Потом длинное, с оговорками, со скобками, с уходом в сторону и возвратом. Плотный абзац с цифрами, следом лёгкая ремарка.
- **Конкретен.** Не «многие компании», а «три проекта». Не «эксперты считают», а «я попробовал, не сработало». Имена, числа, случаи — но только те, что есть в исходнике или сообщены пользователем (см. «Факт-замок» в Шаге 3): выдумывать конкретику нельзя.
- **Допускает шероховатость.** Повтор слова вместо синонима-через-силу. Разговорный оборот. Иногда частица «же», «вот», «ну». Иногда дефис вместо идеального тире.
-

Del mismo repositorio

auditSlash Command

Аудит текста на признаки AI без правки (сканер + разбор по скиллу)

humanizeSlash Command

Очеловечить русский AI-текст (полный рерайт по скиллу humanizer-ru)