AI-агентам нужны permission boundaries, а не личности
Большинство agent runtimes добавляют роли. punk исходит из другой идеи: доверие строится на boundaries, durable state и proof.
Context-First Thinking
Практика по AI agents, context engineering и toolchains. Полные статьи — на сайте. Короткие заметки и обсуждение — в Telegram.
Большинство agent runtimes добавляют роли. punk исходит из другой идеи: доверие строится на boundaries, durable state и proof.
Изучение Leanstral от Mistral -- агента для доказательства теорем на Lean 4 -- привело к конкретным улучшениям Signum, пайплайна мультимодельного код-ревью.
Верификация AI-кода как цикл, а не гейт. Итеративный аудит, самокритика контрактов и общий контекст между задачами в Signum v4.6.
Мы тщательно проектируем промпты и инструменты, но почти не проверяем среду, в которой агент реально работает. Sentinel делает это измеримым.
PostToolUse хук, который логирует каждую активацию скилла в локальный JSONL. Ни один существующий инструмент не отслеживает, выполнила ли модель инструкции скилла.
Почему AI research-агенты дают ложную уверенность и как delve меняет доверительную модель через claim-level верификацию.
Локальный новостной плагин для AI-агентов работал, пока не перестал. Решение - другая модель данных, язык и surface.
AI удешевил код. Он не удешевил доверие. Решение - не лучшие ревьюеры, а перенос gate с PR diff на утвержденный intent.
Proofpack связывает контракт, реализацию и аудит в верифицируемую цепочку. Proof artifacts - недостающий примитив AI-кодогенерации.
Как я собрал 4-стадийный пайплайн новостей, который кластеризует статьи в истории по схожести заголовков - stdlib Python + SQLite.
Почему прогнать AI-код через ещё больше AI-ревьюеров не решает проблему надёжности — и что меняет подход contract-first.
Как я построил экосистему плагинов для Claude Code — от разрозненных скриптов до полного жизненного цикла со скаффолдингом, quality gates, мульти-AI ревью и установкой одной командой.
Разбираем SkillsBench — первый систематический бенчмарк для Agent Skills. 7308 траекторий, критический анализ, и почему skills — это context engineering для агентов.
Почему git ломает AI-агентов и как jj решает каждую из этих проблем
Как формат подачи контента определяет, увидит ли его AI-агент. Данные исследований, реальные стандарты и что делать прямо сейчас.
Исследование выбора моделей Claude для мультиагентных команд. Почему Opus может быть дешевле Sonnet, а Haiku опасен для агентных задач.
Справочник по Gas Town — системе параллельного управления 20-30 Claude Code агентами. Команды, концепции, воркфлоу.
Как применить эволюционный подход к генерации стартап-идей с помощью AI-агентов
Как решить проблему дрейфа skills в AI-агентах. Manifest + lock + symlinks — паттерн из пакетных менеджеров для управления контекстом.
Разбор архитектуры Claude Code по материалам выступления основателя PromptLayer. Почему while-loop, Bash и управление контекстом важнее сложных workflow.
Почему Text-to-SQL и прямой маппинг REST API не работают, и как семантический граф бизнес-сущностей решает проблему доставки контекста в enterprise.
Введение в context engineering — инженерный подход к работе с LLM. Почему промпты перестают работать и что с этим делать.
5k+ читателей в месяц
Переходи в @ctxtdev за короткими заметками, промежуточными идеями и обсуждением новых постов.
Поддержка помогает выпускать новые материалы. Если ты строишь AI agents и нужен внешний инженерный взгляд, можно сразу написать по рабочему запросу.
100+ читателей ежедневно