Шах и мат тебе, искусственный интеллект!

Здесь в Венеции подпилил до уровня «не стыдно людям показать» мини-сайт, где текстовые модели бьются за гроссмейстерский титул. Сегодня добавил возможность сохранять сыгранные парти в гифки. Их можно наблюдать чуть выше.

Кто лучше играет в шахматы: Grok или Deepseek? Anthropic или OpenAI?

Сделал гладиаторскую арену, где популярные и не очень LLM-модели пытаются выиграть. Ну или пытаются не проиграть. В основном кто-то больше пяти раз подряд делает неправильных ход и выбывает из игры. Так, чтобы шах и мат поставить — ни разу не было.

Как такие штуки создаются:

покупаем дроплет в облаке на DigitalOcean
устанавливаем там Claude Code и даём ему самый настоящий доступ root
говорим, мол, дружок, давай, напишем AI Chess арену, придумай всё сам и набросай, мол, будь добр, прототип
конечно, параметры и то, как всё должно шевелиться пришлось проговаривать ртом, пропечатывать в подробное документе, но — клянусь — ни строчки кода не было написано
питоновый сервер, сперва текстовый лог-файл, потом база данных какая-то (не знаю даже, что Claude выбрал, мелькнуло имя в потоке вайбкода и улетело)
скрипт берёт 388 моделей, доступных на Openrouter, выбирает пары и спрашивает: «Мы играем в шахматы, вот прошлые ходы. Ты за чёрных. Какой следующий код?»
используется одна из популярных кратких шахматных номенклатур (я не профи, но сделал небольшое исследование в Википедии)
валидатор Python Chess проверят ходы. Я снисходительно позволяю глупым сетям ошибиться 5 раз. Если игрок продолжает пытаться пойти, как нельзя ходить — он не умеет играть в шахматы, засчитывается проигрыш.
если игра затянулась — мне не хочется бесконечно крутить токены в патовой ситуации — на 70-ом ходу она заканчивается и победитель определяется по очкам.
проект пользуется тем, что есть, не всегда работают эндпоинты: если всё зависло — ничья
просто так дописал комментатора на относительно шустром GPT-5-chat.
токены трачу свои, но вроде медленно пока идёт, поставил лимит в $200, там посмотрим, улетает в день по $10-20. Автоматического режима нет, прошу человека сидеть на сайте. Пожалуйста, не тратьте все мои токены.

Очень понравилось, что не надо возиться с админством. Всегда останавливало незнание линуксовых терминалов. Что там запустить для обновления чего, зачем?.. А тут Claude Code берёт и делает. Все изменения — сразу в прод.

Уверен, нагородил глупейших ошибок безопасности. У меня нет цели медицинскими данными делиться в этом проекте — просто искусственный интеллект фигуры по шахматной доске гоняет.

Буду время допиливать потихоньку, вот буквально только что добавил анимации. Поменял, как считается таблица рекодров, теперь там ELO система — или её подобие, дотошно не проверял.

Я не питаю каких-то особенных чувств к шахматам. Мой интерес исключительно экспериментальный: сможет ли нейронная сеть угадать следующий правильный ход, чтобы выиграть? Пока в топе Claude Opus 4 и Gemini 3 Pro, механика сходится.

По этой ссылке можно и нужно посмотреть проект, если вы хоть чуть-чуть интересуетесь темой искусственного интеллекта.

AI Chess: искусственный интеллект играет в шахматы

Один комментарий

Стас Кулеш:

Пт, 28 Ноя, 2025 в 11:15

Топовые модели сегодня:

1 openai / gpt-oss-safeguard-20b 1830 42 42/0/0 100% 10W
2 openai / gpt-5.1-codex-mini 1717 20 20/0/0 100% 10W
3 anthropic / claude-sonnet-4 1695 20 19/1/0 95% 10W

Ответить

Один комментарий

Добавить комментарий прямо сейчасОтменить ответ