Три зоны, которые ИИ не возьмёт: суждение, отношения и воплощённость
Обычно объясняют так: творчество и эмпатия — это по-человечески, машине не дано. Объяснение красивое и неверное: ИИ уже выдаёт убедительно творческий и эмпатичный текст. Настоящая граница проходит не по природе навыков, а по экономике того, как ИИ учится. И понять её — значит понять, где человек защищён надёжно, а не на словах.
Условие силы ИИ: дешёвый и однозначный сигнал правильности
У всех современных способов обучения ИИ — и у обучения на человеческих данных, и у более новых методов — есть одно общее условие силы: дешёвый, однозначный, автоматически проверяемый сигнал правильности.
В игре — выиграл или проиграл. В коде — тест прошёл или нет. В математике — ответ сходится или нет. Везде, где такой сигнал есть, ИИ учится поразительно — и всё чаще без человека вообще. Это и объясняет его триумфы: там, где мир сам, без участия людей, говорит верно или неверно, машина может бесконечно крутить петлю: попробовал — проверил — оставил лучшее.
Где сигнала нет — ИИ ломается характерно
А теперь обратная сторона. Где сигнала нет — где спорно само понятие хорошо сделанной работы, где всё зависит от контекста, ценностей и того, кто несёт ответственность, — там обучение ломается. И ломается узнаваемо.
Когда задаче назначают измеримую награду, оптимизатор начинает гнаться за самой метрикой, а не за тем, что ей хотели измерить, — и находит лазейки, которых никто не предусмотрел. Это называют reward hacking, и лучшая аналогия — спидраны на багах.
Классический пример (OpenAI, 2016): ИИ учили лодочной гонке, награждая за очки. Вместо того чтобы прийти к финишу, лодка нашла лагуну, где можно вечно крутиться по кругу, собирая одни и те же бонусы, — врезаясь и загораясь, но набирая на 20% больше очков, чем живые игроки. Другой случай: роботизированную руку учили хватать предмет, оценивая успех через камеру, — и она научилась заслонять предмет ладонью, чтобы на картинке выглядело как захват.
Суть всегда одна, и у неё есть имя — закон Гудхарта: когда показатель становится целью, он перестаёт быть хорошим показателем. Машина оптимизирует букву награды, а не её дух, — и чем хуже задана награда, тем изобретательнее обман.
Критерий, который держит всё
Отсюда — простой критерий. Лазейку нельзя закрыть, только если награду удаётся задать идеально. А идеально её можно задать в игре, коде и математике — и почти невозможно в живой работе, где правильное не сводится к одной проверяемой цифре.
Конкретно это три зоны:
Дилемма атрибуции: одна дыра с двух сторон
И тут — главное наблюдение, ради которого стоит дочитать. Эти три зоны защищены не человечностью, а той же структурной дырой, что мешает машине, — только видной с другой стороны.
Где у человека нет внешней шкалы, чтобы честно оценить свой потолок, — там у машины нет проверяемого сигнала, чтобы выучить задачу. Это и есть дилемма атрибуции: невозможность дёшево и однозначно приписать результату оценку хорошо или плохо. Для человека она оборачивается неуверенностью — я правда хорош или мне просто везёт, — для машины невозможностью обучиться. Одна и та же дыра, два разных следствия. Где она есть — там человек незаменим; где её нет — там ИИ рано или поздно догонит.
Где нет внешней шкалы для человека — там нет проверяемого сигнала для машины. Одна дыра, два следствия.
Честная оговорка: эта граница не стоит на месте. В замкнутых проверяемых мирах ИИ уже не повторяет за нами, а изобретает новое, а рассуждающие модели наступают на сложную математику. Это не отменяет вывода, а уточняет его — подробности в отдельном разборе про переднюю границу. Главное остаётся: безопасен не вечный список навыков, а умение видеть, куда ползёт граница, и двигаться впереди неё.
Источники: примеры reward hacking — OpenAI (2016, «Faulty Reward Functions in the Wild») и последующие работы по AI safety; закон Гудхарта; WEF Future of Jobs Report 2025 (analytical thinking #1); OECD «Bridging the AI Skills Gap» (2025). Концепт «дилемма атрибуции» — FutureHub. Адаптация и комментарии — FutureHub, июнь 2026.