Как CRED-1 помогает понять, каким доменам можно доверять
Проблема доверия к доменам, о которой редко говорят
Мы все подсознательно оцениваем сайты за доли секунды. Человек заходит на домен и уже решает — легитимный ли это ресурс или что-то подозрительное. Часто это происходит ещё до того, как он прочитает хотя бы пару строк. Вопрос в том, можно ли эту интуицию как-то измерить.
Сейчас в открытом доступе полно датасетов по скорости загрузки, SEO и другим метрикам. А вот с оценкой доверия к доменам всё сложнее. Есть чёрные списки и базы спама, но полноценной системы, которая учитывает несколько сигналов сразу, до сих пор не было.
CRED-1 — это открытый датасет, который пытается заполнить этот пробел.
Что такое CRED-1
CRED-1 содержит данные по 2672 доменам. Его собрали специально для разработчиков и исследователей, которым нужны реальные сигналы credibility. Вместо того чтобы опираться на один показатель — например, возраст домена или наличие SSL — датасет объединяет несколько параметров. Это даёт более точную картину.
Такой подход логичен. Доверие не измеряется одной метрикой. У одного домена может быть давняя регистрация, но при этом он нигде не упоминается. У другого — идеальный SSL, но странные DNS-записи. CRED-1 фиксирует такие нюансы.
Кому это может быть полезно
Командам безопасности. Если вы разрабатываете фильтры для почты, системы обнаружения фишинга или threat intelligence — CRED-1 даёт готовую основу. Не нужно собирать данные с нуля.
DNS и хостинг-провайдерам. Понимание, какие сигналы чаще встречаются у легитимных доменов, помогает лучше защищать инфраструктуру. В NameOcean мы постоянно думаем, как не мешать нормальным проектам и при этом отсекать злоупотребления.
Исследователям. Открытые датасеты позволяют тестировать гипотезы без ограничений платных сервисов. CRED-1 даёт возможность работать с размеченными данными и разрабатывать новые методы детекции.
Стартапам. При создании SaaS-продукта или системы репутации полезно иметь реальные примеры поведения доменов, а не полагаться на догадки.
Какие сигналы учитывает датасет
CRED-1 собирает информацию из разных источников:
- характеристики домена — возраст, репутация регистратора, история продлений
- технические параметры — валидность SSL, поддержка DNSSEC, качество хостинга
- контент — структура сайта, наличие контактов, языковая целостность
- социальное доказательство — backlinks, упоминания, узнаваемость бренда
- история — смена DNS-записей, миграции между хостингами, известные инциденты
Важно, что эти сигналы не рассматриваются по отдельности. Один домен может иметь отличный SSL, но слабое социальное присутствие — и это тоже ценная информация.
Открытый подход
CRED-1 выложен на GitHub. Любой может скачать данные, проанализировать их и использовать в своих проектах. Можно обучать ML-модели, тестировать алгоритмы детекции, добавлять новые сигналы. Это особенно важно для тех, кто раньше сталкивался с закрытыми датасетами в сфере безопасности.
Где уже можно применять
- фильтры спама, которые учитывают репутацию домена отправителя
- расширения для браузера, предупреждающие о подозрительных сайтах
- API для валидации доменов при регистрации пользователей
- SEO-инструменты, которые анализируют backlinks и отмечают сомнительные источники
- системы онбординга в SaaS, где нужно быстро оценить домен без ручной проверки
Зачем это нужно
Сейчас активно используются typosquatting, domain hijacking и фишинговые сайты. При этом иногда страдают и легитимные проекты — их блокируют из-за слишком жёстких правил. CRED-1 предлагает более точный подход: оценивать домен по реальным сигналам, а не по общим ограничениям.
Как провайдер хостинга и доменов, NameOcean видит обе стороны. Мы помогаем нормальным проектам развиваться и одновременно защищаемся от злоупотреблений. Данные вроде CRED-1 помогают делать это более осознанно.
Как начать работу с датасетом
Репозиторий на GitHub открыт. Можно скачать данные и:
- изучить, какие сигналы включены и как они собирались
- посмотреть структуру данных
- выбрать конкретный вопрос и проверить его на выборке
- предложить улучшения или дополнительные сигналы
Если вы используете NameOcean или другой хостинг, понимание этих параметров поможет лучше настраивать политики безопасности.
Что дальше
CRED-1 — это первая версия. В будущем датасет могут расширить: добавить больше доменов, ввести real-time scoring, интегрировать с threat intelligence и отслеживать изменения репутации во времени. Всё зависит от сообщества.
Заключение
CRED-1 не решает проблему доверия к доменам полностью. Но это реальные данные, которые можно использовать уже сейчас. Для разработчиков, исследователей и провайдеров — это полезный инструмент, построенный на открытом подходе.
Если вы работаете с доменами, строите системы безопасности или просто хотите лучше понимать, как формируется доверие в сети — стоит посмотреть.