Скиллы Новичок Исследования и аналитика

SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills

Скачать ZIP
19
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Маркетплейс ClawHub от OpenClaw уже включает более 13 000 пользовательских навыков для AI-агентов, и, согласно последним аудитам, от 13% до 26% из них содержат уязвимости безопасности. Традиционные методы оказываются недостаточными: регулярные выражения не справляются с обфусцированными вредоносными нагрузками, а статические анализаторы не умеют интерпретировать естественный язык в файлах SKILL.md, где часто скрываются атаки через prompt injection и социальную инженерию.

Более того, существующие подходы редко охватывают обе модальности — код и текст — одновременно. Для решения этой проблемы предлагается SkillSieve — трехуровневая система обнаружения, которая применяет всё более глубокий анализ только там, где это действительно необходимо.

Трехуровневая архитектура SkillSieve

SkillSieve организован как каскад из трех уровней фильтрации, каждый из которых выполняет свою роль в выявлении потенциально вредоносных навыков.

Уровень 1: Быстрая фильтрация

На первом этапе используются комбинации регулярных выражений, анализа AST и метаданных. Эти признаки подаются в модель XGBoost, которая оценивает риск. Такой подход позволяет отфильтровать около 86% безопасных навыков в среднем менее чем за 40 мс и без затрат на API.

Уровень 2: Анализ с помощью LLM

Навыки, вызывающие подозрение, передаются на второй уровень, где используется языковая модель. Вместо одного общего запроса анализ разбивается на четыре параллельные подзадачи:

  • соответствие намерений (intent alignment)
  • обоснование запрашиваемых разрешений
  • обнаружение скрытого поведения
  • согласованность между файлами

Каждая подзадача имеет собственный prompt и структурированный формат ответа, что повышает точность диагностики.

Уровень 3: Коллективное решение моделей

Наиболее рискованные навыки передаются на третий уровень, где три независимые LLM выступают в роли «жюри». Они выносят решения отдельно, а при расхождении мнений вступают в обсуждение, прежде чем прийти к окончательному вердикту.

Оценка эффективности

Метод был протестирован на наборе из 49 592 реальных навыков ClawHub, а также на специально созданных примерах с различными техниками обхода защиты. Вся система запускалась даже на одноплатном компьютере ARM.

На размеченном бенчмарке из 400 навыков SkillSieve показал F1-меру 0.800, значительно превзойдя ClawVet с результатом 0.421. Средняя стоимость анализа составила всего 0.006 доллара за навык.

Выводы

SkillSieve демонстрирует, что эффективная защита экосистем AI-агентов требует комбинирования быстрых эвристик, языкового анализа и коллективного принятия решений моделями. Такой многоуровневый подход позволяет масштабируемо и экономично выявлять угрозы в среде, где границы между кодом и текстом становятся всё более размытыми.


Файл из источника

10708_agentarxiv-1.0.9.zip