Что если попросить искусственный интеллект оценить художественную ценность мясных фотографий?

Здесь, в Кальяри я за выходные отщёлкал почти 200 кадров. Это не очень много, а по меркам прошлых фото-лет так вообще крохи, однако сидеть и перебирать снимки времени не было, нет и не будет. Бэклог тянется до 2013 года, если не ошибаюсь, и я уж рукой махнул.

Лень было отсматривать все фотографии из недавней поездки на Сардинию, и я решил протестировать возможности свежего лаптопа с дикими гигабайтами памяти. Установил LM Studio, накачал мультимодальных сетей, чтоб запускать локально:

mistralai/mistral-small-3.2
qwen/qwen2.5-vl-7b
google-gemma-3-27b-it-qat-small — поделка мастеров, медленная оказалась
google/gemma-3-12b — официальная от гугла
deepseek/deepseek-r1-0528-qwen3-8b

Загрузил все — ушло, 75% памяти. Дальше будет пост с непонятными словами и понятными (человеку) картинками.

Попросил Claude Opus 4 помочь написать PRD. Если честно, это была интенсивная шестичасовая сессия осьминожьего программирования:

Claude Opus 4 набросал изначальный план
o3 его скорректировал, добавил «что может пойти не так?»
Claude Opus 4 пробежался по плану ещё раз и выдал финальный результат: кусок маркдауна с пошаговым алгоритмом: «как бы ты рассказывал программисту, который это строит для тебя за деньги?»
- Руками, уж зная, что мне нравится, написал какими технолгиями делаем
- Куча всего в ~/.claude/CLAUDE.md — сразу описано, что используем, что не
Закинул это в
- Claude Code
- Firebase Studio
- v0.dev
Нормальное почти вот-вот заработает получилось во всех трёх, но Claude Code был лучший!
Потыкал версии, попробовал одновременно что-то где-то улучшать, расплылось в разные стороны, потеряло нить повествования.
Добивал в итоге в любименьком Claude Code.
Боролся, чтобы не забывал, сам себя не переписывал… как обычно. Начало всюду хорошее. Но потом устаёт и начинает глючить. Поэтому при 90%-ом попадании, чем меньше доводить, тем лучше — работает.

Заняло ~6 часов c полным погружением.

Каков алгоритм творческого осмысления моих гениальных снимков? Я дал инструкции «жюри» фото-конкурса: мол, оцениваем по нескольким параметрам:

Композиция: 18.8/25
- Математикой и отдельной нейронкой считаем дополнительные баллы за попадание в популярные композиционные схемы (правило третьих, золотое сечение, всякое такое). Буквально рисуются линии поверх и простенький ИИ «смотрит», попадают ли обнаруженные объекты на линии.
Техника: 19.8/25
- Дополнительные баллы можно заработать за отсутствие шума, хороший контраст. Мало, но всё же что-то.
Сюжет: 18.0/25
- Здесь мини-плагин даёт экстра очки за динамику (пойманный момент, если угодно).
Красота: 20.5/25

В конце, как в олимпийских играх всё суммируется, занимается этим DeepSeek R1, локально, конечно. Он самый тугодум оказался.

Дал членам комиссии смешные имена:

📸 Henri Mistral-Bresson (Henri Cartier-Bresson + Mistral model)
🎭 Vivian Qwen-Maier (Vivian Maier + Qwen model)
🌆 Robert Gemma-Frank (Robert Frank + Gemma model)
🖤 Diane Arbus-12B (Diane Arbus + 12B model)

Я слабо понимаю, как модели локальные, особенно мультимодальные рассуждают об изображениях, добавил для сравнения те, с которыми знаком, облачные:

🎯 Annie Claude-ovitz (Annie Leibovitz + Claude model) — Cerebral portraitist seeking psychological depth
🌍 Sebastião GPT-gado (Sebastião Salgado + GPT model) — Humanistic documentarian with global perspective

Финальные результаты на разбор уходят в google/gemini-2.5-flash, чтобы выдать уже какой-то финальный вариант — какие фотографии стоят внимания и почему.

Цена разработки: $9.07

Я в Warp конвертировал пару сотен картинок из противного HEIC, подогнал размер заодно под оптимальный для процессинга (это всё написано на странице Anthropic).

Потом уже в виде дополнительных улучшений добавил параллелизацию, чтобы не ждать двадцать лет, а по несколько фото за раз пролетало. И побежали агенты смотреть на картинки и писать свои ревью!

Финальная оценка выглядит как-то так:

ИИ-агенты смешные, всегда хвалят. Иногда спрашивают, «А где люди-то?» Не ругают, так, ворчат чуть…

«Another postcard, darling. Where’s the grit? The awkwardness? Give me a face contorted in grief, not this sanitized view of some European plaza.»

💭 «Pretty picture, zero substance.»

Поставил на ночь считать фото жюри, и вот что получилось

Было 197 фотографий.
Пробежало, составило CSV отсортированный по рейтингу.
Сопроводило комментариями, мол, «Где сюжет-то?!»

Дописал вот только что галерею, а то по цифрам выискивать результаты не очень удобно.

Верх:

Середина.

Попробуем оценить результат… Ну ладно, видно, что композицию находит. Кажется, что бонусы за художественность надо подкрутить, а то они порой слишком сильно влияют. Надо сделать менее строгих экспертов, и подкрутить параметр случайности (творчества), а то комментарии однообразные. В топовых фото мало людей, может давать очки за них? Композиционно — ОК.

Примеры плохих фото:

Пример хороших фото:

Фотография со пожилой женщиной во дворике получила больше очков, почти все эксперты дали ей 80+.

В целом эксперимент увлекательный. Глаз человека по-прежнему на порядок лучше Computer Vision. Очень доволен результатом.

Думаю как-нибудь попробовать метод чемпионата: агенты будут сравнивать 2 картинки, мол, какая больше нравится? А потом выдавать таблицу победителей. Более деревянная идея, кмк.

Возможно, это работает!

P.S.: Всякое такое разбираю в канале ИИзвестия.

2 комментария

Olga:

Вс, 27 Июл, 2025 в 20:10

Очень интересно, недавно тоже захотелось подобное сделать, но руки как всегда не доходят

возможности свежего лаптопа с дикими гигабайтами памяти
а сколько? и что за ноут?

Ответить
- Стас Кулеш:
  
  Вт, 29 Июл, 2025 в 17:06
  
  Просто макбук на максималках.
  
  Ответить

2 комментария

Добавить комментарий для OlgaОтменить ответ