
Здесь, в Кальяри я за выходные отщёлкал почти 200 кадров. Это не очень много, а по меркам прошлых фото-лет так вообще крохи, однако сидеть и перебирать снимки времени не было, нет и не будет. Бэклог тянется до 2013 года, если не ошибаюсь, и я уж рукой махнул.
Лень было отсматривать все фотографии из недавней поездки на Сардинию, и я решил протестировать возможности свежего лаптопа с дикими гигабайтами памяти. Установил LM Studio, накачал мультимодальных сетей, чтоб запускать локально:
- mistralai/mistral-small-3.2
- qwen/qwen2.5-vl-7b
- google-gemma-3-27b-it-qat-small — поделка мастеров, медленная оказалась
- google/gemma-3-12b — официальная от гугла
- deepseek/deepseek-r1-0528-qwen3-8b
Загрузил все — ушло, 75% памяти. Дальше будет пост с непонятными словами и понятными (человеку) картинками.
Попросил Claude Opus 4 помочь написать PRD. Если честно, это была интенсивная шестичасовая сессия осьминожьего программирования:
- Claude Opus 4 набросал изначальный план
- o3 его скорректировал, добавил «что может пойти не так?»
- Claude Opus 4 пробежался по плану ещё раз и выдал финальный результат: кусок маркдауна с пошаговым алгоритмом: «как бы ты рассказывал программисту, который это строит для тебя за деньги?»
- Руками, уж зная, что мне нравится, написал какими технолгиями делаем
- Куча всего в ~/.claude/CLAUDE.md — сразу описано, что используем, что не
- Закинул это в
- Claude Code
- Firebase Studio
- v0.dev
- Нормальное почти вот-вот заработает получилось во всех трёх, но Claude Code был лучший!
- Потыкал версии, попробовал одновременно что-то где-то улучшать, расплылось в разные стороны, потеряло нить повествования.
- Добивал в итоге в любименьком Claude Code.
- Боролся, чтобы не забывал, сам себя не переписывал… как обычно. Начало всюду хорошее. Но потом устаёт и начинает глючить. Поэтому при 90%-ом попадании, чем меньше доводить, тем лучше — работает.
Заняло ~6 часов c полным погружением.
Каков алгоритм творческого осмысления моих гениальных снимков? Я дал инструкции «жюри» фото-конкурса: мол, оцениваем по нескольким параметрам:
- Композиция: 18.8/25
- Математикой и отдельной нейронкой считаем дополнительные баллы за попадание в популярные композиционные схемы (правило третьих, золотое сечение, всякое такое). Буквально рисуются линии поверх и простенький ИИ «смотрит», попадают ли обнаруженные объекты на линии.
- Техника: 19.8/25
- Дополнительные баллы можно заработать за отсутствие шума, хороший контраст. Мало, но всё же что-то.
- Сюжет: 18.0/25
- Здесь мини-плагин даёт экстра очки за динамику (пойманный момент, если угодно).
- Красота: 20.5/25
В конце, как в олимпийских играх всё суммируется, занимается этим DeepSeek R1, локально, конечно. Он самый тугодум оказался.
Дал членам комиссии смешные имена:
- 📸 Henri Mistral-Bresson (Henri Cartier-Bresson + Mistral model)
- 🎭 Vivian Qwen-Maier (Vivian Maier + Qwen model)
- 🌆 Robert Gemma-Frank (Robert Frank + Gemma model)
- 🖤 Diane Arbus-12B (Diane Arbus + 12B model)

Я слабо понимаю, как модели локальные, особенно мультимодальные рассуждают об изображениях, добавил для сравнения те, с которыми знаком, облачные:
- 🎯 Annie Claude-ovitz (Annie Leibovitz + Claude model) — Cerebral portraitist seeking psychological depth
- 🌍 Sebastião GPT-gado (Sebastião Salgado + GPT model) — Humanistic documentarian with global perspective
Финальные результаты на разбор уходят в google/gemini-2.5-flash, чтобы выдать уже какой-то финальный вариант — какие фотографии стоят внимания и почему.

Цена разработки: $9.07

Я в Warp конвертировал пару сотен картинок из противного HEIC, подогнал размер заодно под оптимальный для процессинга (это всё написано на странице Anthropic).
Потом уже в виде дополнительных улучшений добавил параллелизацию, чтобы не ждать двадцать лет, а по несколько фото за раз пролетало. И побежали агенты смотреть на картинки и писать свои ревью!
Финальная оценка выглядит как-то так:

ИИ-агенты смешные, всегда хвалят. Иногда спрашивают, «А где люди-то?» Не ругают, так, ворчат чуть…
«Another postcard, darling. Where’s the grit? The awkwardness? Give me a face contorted in grief, not this sanitized view of some European plaza.»
💭 «Pretty picture, zero substance.»
Поставил на ночь считать фото жюри, и вот что получилось
- Было 197 фотографий.
- Пробежало, составило CSV отсортированный по рейтингу.
- Сопроводило комментариями, мол, «Где сюжет-то?!»
Дописал вот только что галерею, а то по цифрам выискивать результаты не очень удобно.
Верх:

Середина.

Нижняя часть списка.

Попробуем оценить результат… Ну ладно, видно, что композицию находит. Кажется, что бонусы за художественность надо подкрутить, а то они порой слишком сильно влияют. Надо сделать менее строгих экспертов, и подкрутить параметр случайности (творчества), а то комментарии однообразные. В топовых фото мало людей, может давать очки за них? Композиционно — ОК.
Примеры плохих фото:



Пример хороших фото:



Фотография со пожилой женщиной во дворике получила больше очков, почти все эксперты дали ей 80+.

В целом эксперимент увлекательный. Глаз человека по-прежнему на порядок лучше Computer Vision. Очень доволен результатом.
Думаю как-нибудь попробовать метод чемпионата: агенты будут сравнивать 2 картинки, мол, какая больше нравится? А потом выдавать таблицу победителей. Более деревянная идея, кмк.
Возможно, это работает!
P.S.: Всякое такое разбираю в канале ИИзвестия.
Очень интересно, недавно тоже захотелось подобное сделать, но руки как всегда не доходят
Просто макбук на максималках.