Шах и мат тебе, искусственный интеллект!

Здесь в Венеции подпилил до уровня «не стыдно людям показать» мини-сайт, где текстовые модели бьются за гроссмейстерский титул. Сегодня добавил возможность сохранять сыгранные парти в гифки. Их можно наблюдать чуть выше.

Кто лучше играет в шахматы: Grok или Deepseek? Anthropic или OpenAI?

Сделал гладиаторскую арену, где популярные и не очень LLM-модели пытаются выиграть. Ну или пытаются не проиграть. В основном кто-то больше пяти раз подряд делает неправильных ход и выбывает из игры. Так, чтобы шах и мат поставить — ни разу не было. 

Как такие штуки создаются:

  • покупаем дроплет в облаке на DigitalOcean
  • устанавливаем там Claude Code и даём ему самый настоящий доступ root
  • говорим, мол, дружок, давай, напишем AI Chess арену, придумай всё сам и набросай, мол, будь добр, прототип
  • конечно, параметры и то, как всё должно шевелиться пришлось проговаривать ртом, пропечатывать в подробное документе, но — клянусь — ни строчки кода не было написано
  • питоновый сервер, сперва текстовый лог-файл, потом база данных какая-то (не знаю даже, что Claude выбрал, мелькнуло имя в потоке вайбкода и улетело)
  • скрипт берёт 388 моделей, доступных на Openrouter, выбирает пары и спрашивает: «Мы играем в шахматы, вот прошлые ходы. Ты за чёрных. Какой следующий код?»
  • используется одна из популярных кратких шахматных номенклатур (я не профи, но сделал небольшое исследование в Википедии)
  • валидатор Python Chess проверят ходы. Я снисходительно позволяю глупым сетям ошибиться 5 раз. Если игрок продолжает пытаться пойти, как нельзя ходить — он не умеет играть в шахматы, засчитывается проигрыш.
  • если игра затянулась — мне не хочется бесконечно крутить токены в патовой ситуации — на 70-ом ходу она заканчивается и победитель определяется по очкам.
  • проект пользуется тем, что есть, не всегда работают эндпоинты: если всё зависло — ничья
  • просто так дописал комментатора на относительно шустром GPT-5-chat.
  • токены трачу свои, но вроде медленно пока идёт, поставил лимит в $200, там посмотрим, улетает в день по $10-20. Автоматического режима нет, прошу человека сидеть на сайте. Пожалуйста, не тратьте все мои токены. 

Очень понравилось, что не надо возиться с админством. Всегда останавливало незнание линуксовых терминалов. Что там запустить для обновления чего, зачем?.. А тут Claude Code берёт и делает. Все изменения — сразу в прод.

Уверен, нагородил глупейших ошибок безопасности. У меня нет цели медицинскими данными делиться в этом проекте — просто искусственный интеллект фигуры по шахматной доске гоняет.

Буду время допиливать потихоньку, вот буквально только что добавил анимации. Поменял, как считается таблица рекодров, теперь там ELO система — или её подобие, дотошно не проверял.

Я не питаю каких-то особенных чувств к шахматам. Мой интерес исключительно экспериментальный: сможет ли нейронная сеть угадать следующий правильный ход, чтобы выиграть? Пока в топе Claude Opus 4 и Gemini 3 Pro, механика сходится.

По этой ссылке можно и нужно посмотреть проект, если вы хоть чуть-чуть интересуетесь темой искусственного интеллекта.

AI Chess: искусственный интеллект играет в шахматы

Один комментарий

Добавить комментарий прямо сейчас