Я потратил $1000 на ИИ-помощника-программиста, и…

Обрезанная офисная стул и элементы ограждения на тротуаре, рядом валяется пустая банка.
Результат работы ИИ-урбаниста

Здесь в Кракове я решил проанализировать свои траты на Devin (ИИ-разработчика) за последние 72 дня. Данные оказались интереснее, чем ожидал. Сижу на плане, в котором оплата сколько съел.

  • Спустил $1,017 за 72 дня ($14.13 в день)
  • Закрыл 129 из 158 пулл-реквестов команды
  • Средняя стоимость моего PR — $6.48
  • Сложность задач выросла в 4 раза — это я учусь ставить задачи, пожалуй, об этом ниже.
  • Быстрые фиксы («подвинь кнопку»)обходятся в $2.25, сложные фичи (буквально вот только что запушил: «добавь авто-заполнение на поля, чтоб ИИ подсказывал варианты сам на основе предыдущих полей» — $42.75
  • Пиковая, прошлая, неделя съела $395 — это я пилил внутреннюю компанейскиую систему знаний
  • Обычная неделя — это $99 🚀 — удобно считать.
  • 76.6% смерженных PR. Остальное — пока в мусорку.

Почему в мусорку? Достану из широких штанин важный для понимания сути языковых моделей график.

Чем дольше ИИ крутит токены, тем больше накапливает ошибок, начинает путаться и выдумывать. Шанс того, что таск будет сделан:

  • Через 1 час: 53%
  • Через 4 часа: 8%
  • Черуз 10 часов: 0.002% — нет шансов, короче.

Поэтому — прям по дизайну этих всех систем, построенных на угадывании наилучшим образом подходящих кусочков слов — супер-важно дать на входе нормальные данные и подробно описать задачу. «По ходу дела» разобраться скорее всего не получится.

Так я перестал быть вайбкодером и превратился в контекстного инженера — Context Engineer. Этот специалист — я — держит в голове всю суть проекта и одновременно способен опускаться до уровня миниатюрных деталей (скругления краёв на кнопках, где какие переменные лежат). Контекстный инженер может по оформленной продуктовой задаче разложить её по полочкам настолько подробно, что даже последовательный, но больной на голову, как пациент из фильма «Мементо», агент искусственного интеллекта может её решить.

Когда вам кажется, что ИИ тупой и налепил глупостей — а вы точно донесли до него суть задачи? ИИ всего лишь угодливо заполняет пустые места.

На графиках видно, что Claude 3.7 побеждает, потому что обрыв, потеря разумности наступает чуть-чуть позже, чем у других. Буквально по этой причине длинные чаты в Cursor надо обрывать и переначинать в новом чате. А Devin, например, трекает длительность сессии и показывает ⚠️, когда происходит переполнение, и даже не в контекстном окне дело, а просто в повторении .

Меня крайне забавляет, что это ну очень похоже на то, как устроены люди. Представьте, что вы попали на рабочий созвон: первые 10 минут — самые продуктивные. После полутора часов болтовни ничего хорошего не придумается, это изнурение, это мука, это пытка. LLM имитируют жизнь. Смотрим второй график.

Шанс ошибки у человека снижается медленнее, поэтому со временем он выигрывает на длинных дистанциях. Это может быть связано с сохраняющимся человеческим преимуществом (или просто с тем, что данные по людям усреднены по разным уровням мастерства). А может просто масштаб в 10 раз более крупный. Заставлять людей решать задачи в течение месяца, чтобы увидеть на вторую неделю кранча резкий спад, я смею предположить, не могли. Впрочем, мы отошли от сути ненадолго.

Так или иначе, выходит, что я трачу $442/месяц, план за $500 — это –$58, но план даёт запас в 152 ACU (облачное компьютерное время) для роста. Не знаю, нужны ли экстра ресурсы, и так очень активно пользовался.

Теперь думаю — $7 за задачу это дорого или дешево, если есть альтернатива нанять мясного программиста за $2000+? Пока склоняюсь к тому, что ИИ окупается.

Вайбкодинг — был всегда. В потоке люди  писали мясной код из головы, когда всё собрано, есть полная ясность — всегда писали, много и мало. Зато, они, люди, говорят, хороший код. Переписывание этого «хорошего кода» — обычная работа для армии разработчиков среднего звена.

Когда ты забираешься на вершину горы, залезаешь в пещеру и месяц что-то делаешь — как в фильме про монахов Шао-Линь, выходишь с какими-то набросками на руках ручкой написанными, пушишь их и такой: «Ааа, бля, оно так не будет работать», и дальше еще месяц по наитию делаешь что-то другое — это жутко медленный, мучительный мясной вайбкод.

Дипворк-программирование — контекстный инжиниринг, ага — сегодня — это когда ты сначала делаешь архитектуру в Гугл Доксе, а потом по ней один раз начисто пишешь (Девином, Клодом или Курсором, или командой людей). И на выходе получаешь продуманное рабочее решение. Таких специалистов мало, и это то, о чём говорил Карпати на недавней конференции — «Build for agents 🤖«.

P.S.: Всякое такое пишу в канал ИИзвестия, 400+ человек уже читают. Монетизировать не планирую, только доллары жечь на токены.

Плёночные фотографии снова в тренде

Здесь в Кракове я обнаружил фотолабораторию в подвале через дорогу и подружился с общительным паном. Купил (сломанный, как оказалось впоследствие) Зенит на местном аналоге Трейдми и отщёлкал пару плёнок. Потом сделал апгрейд на Praktica MTL 5. Даже ухитрился попробовать чёрно-белый формат: Fomapan 200 Creative чешский, если кому интересно. Давно не писал в блог, просто покажу красивые картинки из польских лесов в Закопане, Вены и Кракова.

Читать далее →

Диванный магнетизм и абсурдная радиация

Здесь в Кракове +6°C, я прошёл 40 километров за выходные, и ноги приятно побаливают. Гулял долго, аж успел записать в iMessages длиннющие соображения по теме… Ну, скажем так, вообще всего.

Сразу к сути. С точки зрения ницшеанства и стоицизма, где сам-всё-сам и «бесконечность до тебя, бесконечность после тебя, жизнь — только миг между прошлым и будущим»; иллюзию контроля я принимаю, как лучшее, что у нас есть. Это лучший инструмент, доступный человеку, чтобы не сойти с ума и не ползти к кладбищу. Иллюзорность, как мне кажется, очевидна: можно от занозы в пальце умереть, от рака, от сосульки, под машину попасть. Всё это совершенно точно может случиться с каждым. Но пока не случилось. Пока есть возможность, надо барахтаться.

Мы пишем свою историю сами: сами боремся за возможность выбирать, а потом этот выбор реализуем через действия. Кто что выбирает через действия получать — эмоции, деньги, адреналин, славу — дело десятое, очень индивидуальное. Обсуждать границы выбора сегодня не буду, слишком уж большая тема, не влезет.

Размышления о свободе приводят к парадоксу: с одной стороны, мы осознаем, что многие аспекты жизни находятся вне нашего контроля. Рождение и смерть, как и другие внешние обстоятельства, предопределены неизбежными законами природы и общества. Именно способность выбирать и действовать придаёт нашему существованию смысл. Это стоический компонент.

Ницшеанство, с другой стороны, подчёркивает необходимость творческого преодоления собственных слабостей и максимально смелого утверждения индивидуальности — аутентичности: быть тем, кто ты есть на самом деле. Быть, а не казаться. Ницше призывал убить сверхъестественное (бога), разжать хватку внешних сил (судьбы) и в меру своих сил стать творцом собственной судьбы — отвергнуть навязанные стереотипы, создать новые, свои личные ценности. Даже если иллюзия контроля лишь утешает нас в условиях непредсказуемости мира, именно это ощущение даёт нам силы действовать и преодолевать границы, кажущиеся непреодолимыми. «Так говорил Заратустра».

Дополню философский коктейль французской линией: соус чили в Кровавой Мэри. Осознание абсурдности мира не должно вести к апатии. Напротив, признание конечности бытия обостряет стремление к свободе и творческому самовыражению. Каждый выбор, каждая мелочь, которой мы наполняем жизнь — наполняет её смыслом, становится актом бунта против вселенской безразличности. Вселенная — это в прежде всего пустота, пыль, тлен, ядовитые газы и смертельная радиация. Человек наполняет её смыслом, Камю был прав.

Несмотря на неизбежность определённых жизненных обстоятельств, мы можем и должны находить силы для выбора, для творческого самовыражения и для борьбы за свою свободу.

Так вот, в мире хаоса и никомуненужности у каждой истории есть начало и конец. Абсолютные границы — рождение и смерть — предопределены, и изменить их невозможно. Книги, в которых от рождения до смерти всё подробно рассказывается, скучны и занудны. Личными действиями (волей) можно историю красиво начать и изящно закончить.

Пойти по пути наименьшего сопротивления, где никакие истории сочинять не придётся, и ничего особенного не случится — такой расклад манит, как мягкий диван и comfort food.

«Приключения? Вряд ли в наших краях вы найдёте кого-то, кому могут понравиться приключения. От них одни проблемы, ещё обед пропустишь!»

Бильбо Бэггинс, Хоббит

И в чём Бильбо неправ? Мой друг использует метафору с крышку гроба, мол, деньги есть, семья есть, друзья есть, всё налажено, всё в балансе, сижу в своём доме у бассейна, и слышу: «Тук, тук, тук…» Это гвозди в крышку гроба забивают. Имея возможности и свободу, выбрать комфортную жизни «как у всех» — это как самостоятельно сколотить себе гроб с мягкой обивкой внутри, залезть в него и ждать, когда всё само закончится. Оно точно закончится. Надо только почиллить немного.

«Once upon a time…» — универсальное начало: ясно, что будут приключения! Какими бы эти приключения ни были — удачными или не очень, длинными или короткими, мирового масштаба или приватными, личными.

«Жили они долго и счастливо…» — последняя строка истории. Конец.

Китайский мёд

Здесь в Кракове, в связи с появление офигенных китайских моделей семейства DeepSeek, которые полностью опен-сорс и вполне конкурируют с дорогими коммерческими американскими мозгами o1 и даже o1 pro ($200/месяц, я напомню на секундочку), а стоят при этом в 10-15 раз дешевле… Появилось несколько идей о том, почему так происходит, и как будут развиваться события. Учитывая, что этот блог — навсегдашний склад мыслей на случай сингулярности или взрыва нейтронной бомбы над датацентрами соцсетей, зафиксирую мыслишки тут.

Я считаю, что секрет такого поразительного качества китайских моделей — это часть новой «гонки вооружений», в котором государства наращивают не ядерные боеголовки, а искусственный интеллект. Китай включился в игру и — я, безусловно, спекулирую тут и понятия не имею, как дела обстоят на самом деле, время покажет — задействует свою «коллективную силу ума», hive mind aka «мозговой улей», чтобы тренировать ИИ.

Тренировать — в примитивной форме буквально означает проверять ответы нейронной сети и ставить ответам оценки. Как тетрадки учитель проверяет. Так вот, моё сегодняшнее предположение таково: миллионы китайских людей занимаются проверкой фактов. И именно в Китае — есть чипы, есть люди, есть учёные, есть инженеры, и есть миллионы тестировщиков-трениров — это, как нигде в мире, стоит дёшево. И будет стоить ещё дешевле. Сейчас объясню почему.

Представьте себе диктатуру, которая субсидирует программу «улучшения нашего мегамозга ИИ», нанимая граждан в качестве человеческих верификаторов для контроля разговоров между ИИ и человеком. Эти верификаторы должны полагаться исключительно на общие знания и открытые данные, не используя сам ИИ. Чем сложнее вопросы или обсуждения, которые они просматривают, тем выше их зарплата от государства.

Учитывая общий упор на математику и точные науки в школе — общеизвестны факты: в Китае высокая конкуренция и культурно приемлемы муштра и трудолюбие — проверять ИИ на ошибки уровня американского первокурсника в Китае смогут любые школьники. Вместо работы курьером или карьеры в общепите — ты, молодой средне талантливый житель провинции идешь, трудишься мозгом, через интернет, в ГЦВИИ: Государственный Центр Верификации ИИ. Почему бы и нет?

Подобное обучение с обратной связью при участии людей в США, например, (а больше никто всерьез не работает в этой сфере) фактически невозможно — это просто слишком дорого: нужного числа работников просто нет, людей нет. Синтетические данные, за счёт которых сейчас растут модели семейства o1-o3 и самонастраивающийся ИИ могут помочь лишь до определённого момента. Между тем, китайские модели DeepSeek уже опережают конкурентов именно благодаря «ручному» подходу: из заурядного, «окейного» ИИ они делают превосходную систему посредством непрерывной человеческой проверки и перепроверки фактов. Принцип «мусор на входе, мусор на выходе» нивелируется дешёвой, «старомодной» ручной работой.

Ничего принципиально нового в этом методе нет. Было бы странно думать, что Китай идёт иным путём в этот раз. Абсолютно аналогичным образом Китай штампует кроссовки, одежду, электронику, игрушки и телевизоры и миллионы категорий других высококачественных, трудо- и наукоёмких товаров — всё это создаётся силами огромной массы квалифицированных рабочих, которых мотивируют деньги, возможности и, невозможно обойти стороной этот факт, государственная пропаганда. Китаю не нужно изобретать что-то радикально новое: он терпелив и как обычно доводит до совершенства уже существующие решения, копируя и улучшая их, делая продукцию в десять раз лучше и в десять раз дешевле, а затем повторяет этот процесс снова и снова. Так будет и с искусственным интеллектом.

Да, DeepSeek не расскажет вам о событиях 1989 года на главной площади Пекина. И про Винни-Пуха не будет распространяться. Но зато он не будет сливаться по зажатым западной woke-культурой вопросам. Каким ИИ будут пользоваться ваши дети? Им до лампочки политика, а вот без цензуры поболтать со всезнающим мозгом — какая разница откуда он родом и куда улетают данные? — пользователи выберут сами. Ровно так они выбрали ТикТок. Он прикольный. Пофик, что следит за каждым шагом. Как пчёлы на мёд налетят.

Я не говорю, что программа «мегамозга» уже запущена прямо сейчас, — но такое вполне возможно. И если это так, конкурировать с ней будет чрезвычайно сложно. Конечно, в США есть визионеры вроде Маска и Альтмана, однако у них нет подлинной «коллективной силы ума». 

Предстоящий год обещает быть жарким и напряжённым: ИИ съест этот мир.

Клуб Автонелюбителя

Здесь в Кракове, хотел кратко ответить в X на тред про важность того, как быстро автомобиль разгоняется до 100 км/ч: за 3 секунды или за 4? Но кóротко не вышло.

Машина — это нужда и рабство. Я начал водить в 30 лет, незадолго до рождения ребенка: вдруг везти жену в роддом! Пока ребенок был маленький, жили не в центре, а где могли себе позволить: в «поясе доступности», я это называю. Условно, в западной части города, в часе на автобусе от центра.

Окленд так уебански устроен, что, если работаешь не в центре — без машины никак. Жена работала на юге. Каждый день мы на двух отдельных машинах рулили по полтора часа в одну сторону в офисы и обратно.

Мне через пару-тройку лет стало чуть полегче: бизнес пошел в гору, я снял офис в центре города. Стало всего лишь 50 минут в одну сторону руления! Постепенно мы привыкли.

Окленд очень плоский. Встретиться с друзьями — час крутить баранку — это обычное дело. Все при этом будут относительно даже как-то в центре живут вроде. Просто узкие дороги, мало мостов через пролив, пробки, происшествия, ужасная логистика.

В итоге вождение я всегда воспринимал нуждой и пыткой, так и не смог полюбить.

Девайс не решает. Комфортные машины были: дорогая европейская и красивая электрическая —одна мощная, другая тихая и очень быстрая (если от светофора разгоняться) — всё это похуй, если рулишь, как безмозглая осоловелая обезьяна, уставший после сильно выше среднего прибыльной работы.

Каждый божий день даже с двумя машинами в семье был логистической задачей. По алгоритму Дейкстры надо было раскладывать, кто куда может-не-может, успевает-не-успевает, а как там трафик? Толкись на заправке (это решилось электрикой, кстати потом), масло, блядь, проверяй. Сломалась машина, сервис потребовался — и ты fucked: пресмыкайся перед механиками, езди на вонючей колымаге временной, если дадут. Наматывай круги по двадцатиэтажной парковке — натурально сравнимо с ужастиком про Back Room.

Никогда не понимал людей, которые свои драндулеты после всего этого любят намылить и натирать. Это сродни любви ванну или унитаз мыть после использования. С точки зрения вложения капитала автомобиль — одно из худших, дорогущих вложений: выехал из салона, потерял в цене в 2-3 раза. Купил на вторичке — жди, что-то наверняка отвалится. Бесконечный цикл апгрейдов, переживания как бы ни поцарапать, разборки со страховой или обалдевшими соседями по дороге, так называемыми водителями. То ещё говнище.

Выход? Такси, личный водитель, общественный транспорт, ну и жизнь в городе, где пешком всё доступно.

Разумеется, в личном блоге исключительно личные мыслишки. Я никому их не навязываю. Немного бунтую против автомобильного культа. Обсуждение моделей, параметров, скоростей, передач, стоимости или внешнего вида машин для меня как погружение в чудесный мир унитазов, ванн, биде, душевых и других необходимых в быту вещей. Надуманная важность авто, мол, каждый должен знать и разбираться — я против этого. К энтузиастам нет вопросов. Любишь футбол? Помнишь всех игроков все команд и бюджеты клубов. Любишь ремонт и DIY? Держишь в голове все болты и шурупы и все материалы. Красава. От других такого, конечно, не ожидаешь.

Короче, зачем покупать авто да ещё и быстро на нем разгоняться в 40 км/ч зоне? Я честно не понимаю. Совсем. Без авто — свобода, безопасность и радость, и денег больше остаётся.

Напоследок замечание: элемент натурального вреда для здоровья. На пике вождения: в день получалось жалких три тысячи шагов. Как переехали в Европу, поселились в центре — второй год подряд одиннадцать тысяч шагов в день в среднем. Что доктор прописал.

Разумеется, в личном блоге исключительно личные мыслишки. Я никому их не навязываю.