Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Vision Sandbox — это агентное зрение, реализованное через встроенную среду выполнения Python-кода Gemini.
Вместо того чтобы просто «угадывать», что изображено на картинке, модель может писать и выполнять код для проверки пространственных взаимосвязей, подсчёта объектов или выполнения сложного визуального анализа с точностью до пикселя. :
Основные сценарии использования
Инструмент разработан как ключевой навык для OpenClaw и обеспечивает визуальное «заземление» (grounding) для агентных рабочих процессов:
- Пространственное позиционирование — получение точных координат [x, y] элементов интерфейса.
- Визуальные вычисления — использование Python для расчётов на основе данных с изображения.
- Аудит интерфейса — автоматическая проверка перекрытий, выравнивания и доступности.
Требования
- uv (менеджер пакетов Python)
- Python 3.11 (зафиксирован для стабильности)
- Переменная окружения
GEMINI_API_KEY
Установка
Через ClawHub (рекомендуется)
clawhub install vision-sandbox
Для локальной разработки
git clone https://github.com/johanesalxd/vision-sandbox.git
cd vision-sandbox
uv sync
Быстрый старт
Запуск задачи компьютерного зрения через CLI:
uv run vision-sandbox --image "sample/how-many-fingers.png" --prompt "Count the fingers."
Пример: визуальное рассуждение
uv run vision-sandbox --image "sample/how-many-fingers.png" --prompt "Count the number of fingers on this hand. Use code execution to identify the bounding box for each finger and return the total count."
Результат: модель генерирует Python-код, который определяет bounding box для каждого пальца, обеспечивая точный подсчёт вместо визуального предположения.
Интеграция с OpenCode
Vision Sandbox выступает мощным дополнением к OpenCode, позволяя агентам получать точные визуальные данные и использовать их для автоматизации разработки и анализа интерфейсов.
Файл из источника