Как да изградите „умна“ база от документация за вашия AI асистент
Как да подготвите документацията си за AI асистент
Повечето хора просто хвърлят цялата си документация в базата данни на AI агента и се надяват той да се справи. Резултатът обикновено е разочароващ – агентът се лута между безполезни страници и пропуска важната информация.
Не всички страници са еднакво полезни
Всяка документация съдържа страници, които съществуват само заради структурата на сайта. Индексни страници, правни текстове, списъци с промени – всичко това е необходимо за хората, но за AI представлява просто шум.
Когато вкарате тези страници в vector database, забавяте търсенето и обърквате модела. Той започва да цитира грешен контекст или да дава отговори, които нямат връзка с въпроса.
Двустепенен подход за филтриране
Най-добрият начин е да комбинирате прости правила с леко участие на LLM.
Първо ниво – правила
Започвате с проверка на URL адресите и обема на съдържанието:
- Правни страници –
/privacy,/terms,/legal - Навигационни хъбове – страници с под 200 думи, състоящи се предимно от линкове
- Changelogs – обикновено имат предсказуеми URL структури
Това ниво обработва 40–60% от страниците без никакви разходи.
Второ ниво – LLM класификация
За останалите страници изпращате минимален пакет данни към локален модел – URL, заглавие, първите 200 думи и структурата на heading-ите. Моделът класифицира според системата Diátaxis – conceptual, tutorial, how-to, examples или structural.
Правилно embedding на съдържанието
След филтрирането идва embedding-ът. Проблемът е, че много страници са твърде дълги. Вместо да режете на произволни места, разделяте по heading-и и осреднявате получените embeddings. Така запазвате смисъла на отделните секции.
Използвайте локален sentence transformer – по-бързо е и няма API разходи.
Хибриден knowledge graph
Силата идва от комбинацията между два вида връзки:
- Explicit links – хипервръзките, които авторите са поставили нарочно
- Semantic edges – връзки, открити чрез cosine similarity между embeddings
Съхранявате и двата типа в граф, като ограничавате броя съседи на всяка страница (около 20). Навигационните и правните страници изключвате от semantic графа – те само разводняват сигнала.
Финален продукт – SQLite база
Цялата обработена информация се събира в една SQLite база:
- Пречистен markdown
- Класификации на страниците
- Embeddings
- Граф с тегла
- Метаданни
Базата е преносима, работи офлайн и позволява на AI агента да пише SQL заявки директно.
Практически workflow
- Crawl-вате сайта
- Преобразувате HTML в markdown
- Класифицирате страниците
- Генерирате embeddings
- Строите графа
- Записвате в SQLite
Защо си заслужава
С добре структурирана база AI асистентът прекарва времето си върху реално съдържание, а не върху шум. Отговорите стават по-точни, заявките – по-бързи, а вие запазвате пълен контрол върху данните си без външни зависимости.