
Здесь в Венеции подпилил до уровня «не стыдно людям показать» мини-сайт, где текстовые модели бьются за гроссмейстерский титул. Сегодня добавил возможность сохранять сыгранные парти в гифки. Их можно наблюдать чуть выше.
Кто лучше играет в шахматы: Grok или Deepseek? Anthropic или OpenAI?




Сделал гладиаторскую арену, где популярные и не очень LLM-модели пытаются выиграть. Ну или пытаются не проиграть. В основном кто-то больше пяти раз подряд делает неправильных ход и выбывает из игры. Так, чтобы шах и мат поставить — ни разу не было.
Как такие штуки создаются:
- покупаем дроплет в облаке на DigitalOcean
- устанавливаем там Claude Code и даём ему самый настоящий доступ
root - говорим, мол, дружок, давай, напишем AI Chess арену, придумай всё сам и набросай, мол, будь добр, прототип
- конечно, параметры и то, как всё должно шевелиться пришлось проговаривать ртом, пропечатывать в подробное документе, но — клянусь — ни строчки кода не было написано
- питоновый сервер, сперва текстовый лог-файл, потом база данных какая-то (не знаю даже, что Claude выбрал, мелькнуло имя в потоке вайбкода и улетело)
- скрипт берёт 388 моделей, доступных на Openrouter, выбирает пары и спрашивает: «Мы играем в шахматы, вот прошлые ходы. Ты за чёрных. Какой следующий код?»
- используется одна из популярных кратких шахматных номенклатур (я не профи, но сделал небольшое исследование в Википедии)
- валидатор Python Chess проверят ходы. Я снисходительно позволяю глупым сетям ошибиться 5 раз. Если игрок продолжает пытаться пойти, как нельзя ходить — он не умеет играть в шахматы, засчитывается проигрыш.
- если игра затянулась — мне не хочется бесконечно крутить токены в патовой ситуации — на 70-ом ходу она заканчивается и победитель определяется по очкам.
- проект пользуется тем, что есть, не всегда работают эндпоинты: если всё зависло — ничья
- просто так дописал комментатора на относительно шустром GPT-5-chat.
- токены трачу свои, но вроде медленно пока идёт, поставил лимит в $200, там посмотрим, улетает в день по $10-20. Автоматического режима нет, прошу человека сидеть на сайте. Пожалуйста, не тратьте все мои токены.
Очень понравилось, что не надо возиться с админством. Всегда останавливало незнание линуксовых терминалов. Что там запустить для обновления чего, зачем?.. А тут Claude Code берёт и делает. Все изменения — сразу в прод.
Уверен, нагородил глупейших ошибок безопасности. У меня нет цели медицинскими данными делиться в этом проекте — просто искусственный интеллект фигуры по шахматной доске гоняет.
Буду время допиливать потихоньку, вот буквально только что добавил анимации. Поменял, как считается таблица рекодров, теперь там ELO система — или её подобие, дотошно не проверял.
Я не питаю каких-то особенных чувств к шахматам. Мой интерес исключительно экспериментальный: сможет ли нейронная сеть угадать следующий правильный ход, чтобы выиграть? Пока в топе Claude Opus 4 и Gemini 3 Pro, механика сходится.
По этой ссылке можно и нужно посмотреть проект, если вы хоть чуть-чуть интересуетесь темой искусственного интеллекта.
Топовые модели сегодня:
1 openai / gpt-oss-safeguard-20b 1830 42 42/0/0 100% 10W
2 openai / gpt-5.1-codex-mini 1717 20 20/0/0 100% 10W
3 anthropic / claude-sonnet-4 1695 20 19/1/0 95% 10W