Что если попросить искусственный интеллект оценить художественную ценность мясных фотографий?

Сардиния

Здесь, в Кальяри я за выходные отщёлкал почти 200 кадров. Это не очень много, а по меркам прошлых фото-лет так вообще крохи, однако сидеть и перебирать снимки времени не было, нет и не будет. Бэклог тянется до 2013 года, если не ошибаюсь, и я уж рукой махнул.

Лень было отсматривать все фотографии из недавней поездки на Сардинию, и я решил протестировать возможности свежего лаптопа с дикими гигабайтами памяти. Установил LM Studio, накачал мультимодальных сетей, чтоб запускать локально:

  • mistralai/mistral-small-3.2
  • qwen/qwen2.5-vl-7b
  • google-gemma-3-27b-it-qat-small — поделка мастеров, медленная оказалась
  • google/gemma-3-12b — официальная от гугла
  • deepseek/deepseek-r1-0528-qwen3-8b

Загрузил все — ушло, 75% памяти. Дальше будет пост с непонятными словами и понятными (человеку) картинками.

Попросил Claude Opus 4 помочь написать PRD. Если честно, это была интенсивная шестичасовая сессия осьминожьего программирования:

  • Claude Opus 4 набросал изначальный план
  • o3 его скорректировал, добавил «что может пойти не так?»
  • Claude Opus 4 пробежался по плану ещё раз и выдал финальный результат: кусок маркдауна с пошаговым алгоритмом: «как бы ты рассказывал программисту, который это строит для тебя за деньги?»
    • Руками, уж зная, что мне нравится, написал какими технолгиями делаем
    • Куча всего в ~/.claude/CLAUDE.md — сразу описано, что используем, что не
  • Закинул это в
    • Claude Code
    • Firebase Studio
    • v0.dev
  • Нормальное почти вот-вот заработает получилось во всех трёх, но Claude Code был лучший!
  • Потыкал версии, попробовал одновременно что-то где-то улучшать, расплылось в разные стороны, потеряло нить повествования.
  • Добивал в итоге в любименьком Claude Code.
  • Боролся, чтобы не забывал, сам себя не переписывал… как обычно. Начало всюду хорошее. Но потом устаёт и начинает глючить. Поэтому при 90%-ом попадании, чем меньше доводить, тем лучше — работает.

Заняло ~6 часов c полным погружением.

Каков алгоритм творческого осмысления моих гениальных снимков? Я дал инструкции «жюри» фото-конкурса: мол, оцениваем по нескольким параметрам:

  • Композиция: 18.8/25
    • Математикой и отдельной нейронкой считаем дополнительные баллы за попадание в популярные композиционные схемы (правило третьих, золотое сечение, всякое такое). Буквально рисуются линии поверх и простенький ИИ «смотрит», попадают ли обнаруженные объекты на линии.
  • Техника: 19.8/25
    • Дополнительные баллы можно заработать за отсутствие шума, хороший контраст. Мало, но всё же что-то.
  • Сюжет: 18.0/25
    • Здесь мини-плагин даёт экстра очки за динамику (пойманный момент, если угодно).
  • Красота: 20.5/25

В конце, как в олимпийских играх всё суммируется, занимается этим DeepSeek R1, локально, конечно. Он самый тугодум оказался.

Дал членам комиссии смешные имена:

  • 📸 Henri Mistral-Bresson (Henri Cartier-Bresson + Mistral model)
  • 🎭 Vivian Qwen-Maier (Vivian Maier + Qwen model)
  • 🌆 Robert Gemma-Frank (Robert Frank + Gemma model)
  • 🖤 Diane Arbus-12B (Diane Arbus + 12B model)

Я слабо понимаю, как модели локальные, особенно мультимодальные рассуждают об изображениях, добавил для сравнения те, с которыми знаком, облачные:

  • 🎯 Annie Claude-ovitz (Annie Leibovitz + Claude model) — Cerebral portraitist seeking psychological depth
  • 🌍 Sebastião GPT-gado (Sebastião Salgado + GPT model) — Humanistic documentarian with global perspective

Финальные результаты на разбор уходят в google/gemini-2.5-flash, чтобы выдать уже какой-то финальный вариант — какие фотографии стоят внимания и почему. 

Цена разработки: $9.07

Я в Warp конвертировал пару сотен картинок из противного HEIC, подогнал размер заодно под оптимальный для процессинга (это всё написано на странице Anthropic).

Потом уже в виде дополнительных улучшений добавил параллелизацию, чтобы не ждать двадцать лет, а по несколько фото за раз пролетало. И побежали агенты смотреть на картинки и писать свои ревью! 

Финальная оценка выглядит как-то так:

ИИ-агенты смешные, всегда хвалят. Иногда спрашивают, «А где люди-то?» Не ругают, так, ворчат чуть… 

«Another postcard, darling. Where’s the grit? The awkwardness? Give me a face contorted in grief, not this sanitized view of some European plaza.»

💭 «Pretty picture, zero substance.»

Поставил на ночь считать фото жюри, и вот что получилось

  • Было 197 фотографий.
  • Пробежало, составило CSV отсортированный по рейтингу.
  • Сопроводило комментариями, мол, «Где сюжет-то?!»

Дописал вот только что галерею, а то по цифрам выискивать результаты не очень удобно.

Верх:

Середина.


Нижняя часть списка.
Видно, что фото снизу — трэш

Попробуем оценить результат… Ну ладно, видно, что композицию находит. Кажется, что бонусы за художественность надо подкрутить, а то они порой слишком сильно влияют. Надо сделать менее строгих экспертов, и подкрутить параметр случайности (творчества), а то комментарии однообразные. В топовых фото мало людей, может давать очки за них? Композиционно — ОК.

Примеры плохих фото:

Пример хороших фото:

Фотография со пожилой женщиной во дворике получила больше очков, почти все эксперты дали ей 80+.

В целом эксперимент увлекательный. Глаз человека по-прежнему на порядок лучше Computer Vision. Очень доволен результатом.

Думаю как-нибудь попробовать метод чемпионата: агенты будут сравнивать 2 картинки, мол, какая больше нравится? А потом выдавать таблицу победителей. Более деревянная идея, кмк.

Возможно, это работает!

P.S.: Всякое такое разбираю в канале ИИзвестия.

2 комментария

  1. Очень интересно, недавно тоже захотелось подобное сделать, но руки как всегда не доходят

    возможности свежего лаптопа с дикими гигабайтами памяти
    а сколько? и что за ноут?

Добавить комментарий прямо сейчас