Я потратил $1000 на ИИ-помощника-программиста, и…

Обрезанная офисная стул и элементы ограждения на тротуаре, рядом валяется пустая банка.
Результат работы ИИ-урбаниста

Здесь в Кракове я решил проанализировать свои траты на Devin (ИИ-разработчика) за последние 72 дня. Данные оказались интереснее, чем ожидал. Сижу на плане, в котором оплата сколько съел.

  • Спустил $1,017 за 72 дня ($14.13 в день)
  • Закрыл 129 из 158 пулл-реквестов команды
  • Средняя стоимость моего PR — $6.48
  • Сложность задач выросла в 4 раза — это я учусь ставить задачи, пожалуй, об этом ниже.
  • Быстрые фиксы («подвинь кнопку»)обходятся в $2.25, сложные фичи (буквально вот только что запушил: «добавь авто-заполнение на поля, чтоб ИИ подсказывал варианты сам на основе предыдущих полей» — $42.75
  • Пиковая, прошлая, неделя съела $395 — это я пилил внутреннюю компанейскиую систему знаний
  • Обычная неделя — это $99 🚀 — удобно считать.
  • 76.6% смерженных PR. Остальное — пока в мусорку.

Почему в мусорку? Достану из широких штанин важный для понимания сути языковых моделей график.

Чем дольше ИИ крутит токены, тем больше накапливает ошибок, начинает путаться и выдумывать. Шанс того, что таск будет сделан:

  • Через 1 час: 53%
  • Через 4 часа: 8%
  • Черуз 10 часов: 0.002% — нет шансов, короче.

Поэтому — прям по дизайну этих всех систем, построенных на угадывании наилучшим образом подходящих кусочков слов — супер-важно дать на входе нормальные данные и подробно описать задачу. «По ходу дела» разобраться скорее всего не получится.

Так я перестал быть вайбкодером и превратился в контекстного инженера — Context Engineer. Этот специалист — я — держит в голове всю суть проекта и одновременно способен опускаться до уровня миниатюрных деталей (скругления краёв на кнопках, где какие переменные лежат). Контекстный инженер может по оформленной продуктовой задаче разложить её по полочкам настолько подробно, что даже последовательный, но больной на голову, как пациент из фильма «Мементо», агент искусственного интеллекта может её решить.

Когда вам кажется, что ИИ тупой и налепил глупостей — а вы точно донесли до него суть задачи? ИИ всего лишь угодливо заполняет пустые места.

На графиках видно, что Claude 3.7 побеждает, потому что обрыв, потеря разумности наступает чуть-чуть позже, чем у других. Буквально по этой причине длинные чаты в Cursor надо обрывать и переначинать в новом чате. А Devin, например, трекает длительность сессии и показывает ⚠️, когда происходит переполнение, и даже не в контекстном окне дело, а просто в повторении .

Меня крайне забавляет, что это ну очень похоже на то, как устроены люди. Представьте, что вы попали на рабочий созвон: первые 10 минут — самые продуктивные. После полутора часов болтовни ничего хорошего не придумается, это изнурение, это мука, это пытка. LLM имитируют жизнь. Смотрим второй график.

Шанс ошибки у человека снижается медленнее, поэтому со временем он выигрывает на длинных дистанциях. Это может быть связано с сохраняющимся человеческим преимуществом (или просто с тем, что данные по людям усреднены по разным уровням мастерства). А может просто масштаб в 10 раз более крупный. Заставлять людей решать задачи в течение месяца, чтобы увидеть на вторую неделю кранча резкий спад, я смею предположить, не могли. Впрочем, мы отошли от сути ненадолго.

Так или иначе, выходит, что я трачу $442/месяц, план за $500 — это –$58, но план даёт запас в 152 ACU (облачное компьютерное время) для роста. Не знаю, нужны ли экстра ресурсы, и так очень активно пользовался.

Теперь думаю — $7 за задачу это дорого или дешево, если есть альтернатива нанять мясного программиста за $2000+? Пока склоняюсь к тому, что ИИ окупается.

Вайбкодинг — был всегда. В потоке люди  писали мясной код из головы, когда всё собрано, есть полная ясность — всегда писали, много и мало. Зато, они, люди, говорят, хороший код. Переписывание этого «хорошего кода» — обычная работа для армии разработчиков среднего звена.

Когда ты забираешься на вершину горы, залезаешь в пещеру и месяц что-то делаешь — как в фильме про монахов Шао-Линь, выходишь с какими-то набросками на руках ручкой написанными, пушишь их и такой: «Ааа, бля, оно так не будет работать», и дальше еще месяц по наитию делаешь что-то другое — это жутко медленный, мучительный мясной вайбкод.

Дипворк-программирование — контекстный инжиниринг, ага — сегодня — это когда ты сначала делаешь архитектуру в Гугл Доксе, а потом по ней один раз начисто пишешь (Девином, Клодом или Курсором, или командой людей). И на выходе получаешь продуманное рабочее решение. Таких специалистов мало, и это то, о чём говорил Карпати на недавней конференции — «Build for agents 🤖«.

P.S.: Всякое такое пишу в канал ИИзвестия, 400+ человек уже читают. Монетизировать не планирую, только доллары жечь на токены.

Комментарии

 

Один комментарий

Добавить комментарий прямо сейчас