
Здесь в Вене, у меня давно была мечта – собрать нормальную личную базу знаний. Не папку с заметками, не кладбище markdown-файлов, не «я когда-нибудь это разберу», а живую систему, в которую можно закинуть годы цифрового мусора и потом действительно что-то находить.
За последние дни мы с Hermes допилили такую штуку вокруг https://github.com/garrytan/gbrain — это такой open source концепт-проект, «Second Brain» для ИИ-агентов от Garry Tan, CEO Y Combinator. Если очень грубо — это слой памяти между человеком и агентами. Туда можно складывать заметки, архивы, старые посты, wiki, рабочие материалы, наблюдения, транскрипты — буквально всё что угодно. Потом всё индексируется, ищется по смыслу и становится доступно агенту как контекст.
И вот это для меня главное. Получается не «ещё один Notion». Не «ещё один markdown vault». А место, где данные можно накапливать годами и потом использовать всюду.
У gbrain есть интеграция с агентами и свой MCP server, то есть его можно подключать к инструментам вроде Claude Code, Cursor, Windsurf и другим клиентам, которые понимают MCP.
Заметки перестают быть просто заметками. Они становятся долгосрочной памятью, которую можно дать разным ИИ-инструментам.
Агент Hermes (https://hermes-agent.nousresearch.com/) в этой истории — всего лишь инструмент, который помогает всё это разбирать, импортировать, чинить, дополнять и поддерживать в актуальном состоянии. То есть не просто «спросил чатик», а постепенно построил систему, которая сама себя обслуживает. Это сработает и c Claude Code, и с модным Openclaw. Я просто хотел попробовать что-то новое.
Звучит достаточно примитивно, но на практике это, конечно, не «подключил ChatGPT к папочке», чуть сложнее.
Сначала надо было собрать источники. У меня их оказалось много: старый Second Brain (экспорт и обогащение подробно описано тут), Obsidian, гиперлинкованная wiki — первая попытка построить что-то вроде личной Википедии, заметки из разных приложений, архивы соцсетей, рабочие заметки, куски прошлых проектов. Всё лежало в разном виде, с разной структурой, кодировками, форматами и степенью запущенности. Соответственно, надо было превратить это в страницы, которые gbrain может нормально индексировать. То есть не просто «импортировать файлы», а сделать так, чтобы они стали полезными: с заголовками, датами, источниками, ссылками, тегами, кусками текста, которые можно искать семантически.
Самая скучная часть оказалась самой важной: пайплайн.
Импорт → проверка → эмбеддинги → поиск → исправление → повторить.
Когда у тебя тысячи, десятки тысяч страниц, нельзя просто сказать агенту «разбери всё». Он обязательно где-то упрётся: файл не скачался, архив оказался плейсхолдером, база занята, фоновая задача не увидела нужные настройки, старый экспорт оказался не тем форматом, который ожидался. Классика.
Поэтому мы постепенно превратили это в инженерный процесс:
- маленький тест на 3-5 элементов
- проверка результата глазами
- фиксим конвертер или правило
- только потом массовый импорт
- после импорта — эмбеддинг (векторизация через OpenAI) и поиск
- после поиска — sanity check: можно ли действительно найти то, что я помню?
Очень быстро стало понятно, что Second Brain без автопилота умирает. Если его надо вручную «обновлять», «переиндексировать», «не забыть запустить», он превращается в ещё одну систему, за которой надо ухаживать. Поэтому мы с Hermes сделали автоподдержку: теперь gbrain периодически просыпается, смотрит, что изменилось, обновляет индекс, добивает stale-эмбеддинги, прогоняет maintenance-процессы и пишет отчёты только если что-то пошло не так. В идеале я вообще не должен об этом помнить.
Отдельная история — Facebook (покинут в 2018) и X/Twitter (единственная моя соцсеть). Например, у меня был полный экспорт старых твитов до ноября 2024, плюс есть текущие посты и закладки. Мы подключили bird (от создателя OpenClaw), сделали конвертер и теперь X тоже попадает в brain:
- старые посты разложены по месяцам
- новые посты подтягиваются регулярно
- закладки сохраняются как отдельный поток сигналов
- у каждого поста остаётся ссылка на оригинал
- raw-данные сохраняются отдельно, чтобы потом можно было перепроверить
Это неожиданно ценно. X — не просто соцсеть, а слой мышления. Там часто появляются короткие формулировки, которые потом становятся постами, продуктами, решениями или просто хорошими наблюдениями. Если их не сохранить, они растворяются.
Что в итоге получилось?
Не «идеальная база знаний». Таких не бывает. Получилась живая система, которая:
- помнит мои старые заметки
- ищет по смыслу, а не только по словам
- знает, откуда взялся текст
- обновляется без ручного шаманства
- может отдавать контекст разным агентам и редакторам через MCP
- позволяет ИИ работать не с пустой головой, а с моим накопленным контекстом
И вот это и есть, как мне сегодня кажется, главный сдвиг.
Большинство ИИ-инструментов сегодня работают как очень умный собеседник с амнезией. Ты каждый раз заново объясняешь, кто ты, чем занимаешься, какие у тебя проекты, где что лежит и почему это важно.
Second Brain меняет механику. Агент уже не просто отвечает на вопрос. Он может сначала посмотреть, что я уже писал, какие решения принимал, какие проекты у меня есть, какие люди и компании упоминались раньше, какие идеи повторяются годами.
Это уже не чат. Это больше похоже на операционную систему для личного контекста.
Пока всё ещё сыро. Много ручной работы, много странных edge cases, много «почему это опять не проиндексировалось». Но направление мне очень нравится.
У меня ощущение, что следующий большой скачок в личной продуктивности будет не от ещё одной модели, которая умнее на 8% в бенчмарке, а от нормальной связки: личный архив + семантический поиск + агент + автоподдержка + MCP
Память, которая не лежит мёртвым грузом.
Память, с которой можно работать.
Постараюсь не забывать обновлять этот блог, например.
P.S.: Теперь самое смешное — статистика.
У самого Тана инстанс такой:
- 17 888 страниц
- 4 383 досье на людей
- 723 компании
У меня совсем иная статистика:
- 26 226 страниц
- 80 043 семантических чанка
- 79 926 embedded chunks
- 5 530 graph links
- 9 109 timeline entries
- 1 505 тегов
- 13 досье на людей
- 0 компаний
То есть по сырому объёму мой корпус уже примерно в 1.47 раза больше инстанса Тана. Но по структуре это совершенно другой зверь.
У Тана, судя по цифрам, уже почти CRM: люди, компании, досье, связи. У меня пока автобиографическая свалка, которую удалось превратить в работающую память: блог за двадцать лет, Second Brain, wiki, X, Facebook, проекты, сессии, заметки, источники. Больше археология сознания, чем адресная книга.
И это честно важное различие. Большой архив сам по себе ещё не интеллект. Пока в нём мало аккуратных карточек людей и компаний. Следующий этап работы — превратить сырой контекст в карту людей, проектов, компаний и идей.
Смотрю на задачу похожим образом. Вижу в таком продукте много ценности. Для себя пока задачу сильно упростил: Сделать wiki или хранилище Обсидиана хотя бы просто из собственных чатов с Гермесом. Складывать туда не всё подряд, а то, что я попрошу. Сделать удобный фронт для того чтобы белковый пользователь мог ориентироваться в результате, а не просто иметь поисковую строку для всего. Никаких эмбеддингов, векторных БД и коннекторов к моим тупым каментам в соцсетях. Просто хочу задокументировать полезную часть тех знаний, которые получаю от разных LLM. Цепочка диалога ценнее, чем просто атомарная заметка. Возможность «форкнуть» эту цепочку с произвольного места — ещё ценнее.
Даже такая простенькая задачка пока вызывает проблемы и, как ты описываешь, требует постоянного внимания (чем убивает всю идею). Справедливости ради: я не то чтобы закопал в решение много времени.
Кажется, что время сейчас такое, что нужно пробовать и бросать. Пробовать и бросать. Делать выводы в процессе и писать спеки и требования к такой системе на будущее. Сейчас слишком много ограничений (триллион моделей, столько же провайдеров, условия подписок постоянно меняются и пр), технологии сырые (например, официальный докер Гермеса сломан прямо сейчас), полная жопа с безопасностью. Пиратские воды где много шанса и мало ясности.
Ещё я ума не приложу как отдать все (!) свои данные какой-то LLM с тем что «разберись, рассортируй и поддерживай в порядке». Вроде бы нужен локальный инференс для такого. А значит ещё год-другой в запасе у нас есть. Да и постоянно скребётся мысль: сейчас я закопаю в реализацию этого велосипеда неделю-другую-третью, а через день кто-то выложит на Гитхаб такое же, только лучше, удобнее, красивее, безопаснее. И ведь вопрос о востребованности таких инструментов вообще не стоит. Они точно нужны. Их точно сделают. Корпорации, стартапы и обычные энтузиасты. И они точно будут хорошими, опенсорсными, сэлфхостед.
В общем, мой план пока делать прототипы и бросать. А потом, когда появятся готовые инструменты, уровня «подключить папочку в OpenAI», я постараюсь быстро выбрать лучший потому что к тому времени буду хорошо понимать что мне нужно.
Ну оно ж только векторизуется эмбеддингами, ничего не отдано, не сохранено где-то. Я да ИИ посмотреть на мои данные и вернуть мне наборы цифр для быстрого поиска.