Скиллы Новичок Разное

Vision Sandbox

Скачать ZIP
16
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Vision Sandbox — это агентное зрение, реализованное через встроенную среду выполнения Python-кода Gemini.

Вместо того чтобы просто «угадывать», что изображено на картинке, модель может писать и выполнять код для проверки пространственных взаимосвязей, подсчёта объектов или выполнения сложного визуального анализа с точностью до пикселя. :

Основные сценарии использования

Инструмент разработан как ключевой навык для OpenClaw и обеспечивает визуальное «заземление» (grounding) для агентных рабочих процессов:

  • Пространственное позиционирование — получение точных координат [x, y] элементов интерфейса.
  • Визуальные вычисления — использование Python для расчётов на основе данных с изображения.
  • Аудит интерфейса — автоматическая проверка перекрытий, выравнивания и доступности.

Требования

  • uv (менеджер пакетов Python)
  • Python 3.11 (зафиксирован для стабильности)
  • Переменная окружения GEMINI_API_KEY

Установка

Через ClawHub (рекомендуется)

clawhub install vision-sandbox

Для локальной разработки

git clone https://github.com/johanesalxd/vision-sandbox.git
cd vision-sandbox
uv sync

Быстрый старт

Запуск задачи компьютерного зрения через CLI:

uv run vision-sandbox --image "sample/how-many-fingers.png" --prompt "Count the fingers."

Пример: визуальное рассуждение

uv run vision-sandbox --image "sample/how-many-fingers.png" --prompt "Count the number of fingers on this hand. Use code execution to identify the bounding box for each finger and return the total count."

Результат: модель генерирует Python-код, который определяет bounding box для каждого пальца, обеспечивая точный подсчёт вместо визуального предположения.

Интеграция с OpenCode

Vision Sandbox выступает мощным дополнением к OpenCode, позволяя агентам получать точные визуальные данные и использовать их для автоматизации разработки и анализа интерфейсов.


Файл из источника

11882_vision-sandbox-1.1.0.zip