Скиллы Новичок Разное

Vision Sandbox

Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Vision Sandbox — это агентное зрение, реализованное через встроенную среду выполнения Python-кода Gemini.

Вместо того чтобы просто «угадывать», что изображено на картинке, модель может писать и выполнять код для проверки пространственных взаимосвязей, подсчёта объектов или выполнения сложного визуального анализа с точностью до пикселя. :

Основные сценарии использования

Инструмент разработан как ключевой навык для OpenClaw и обеспечивает визуальное «заземление» (grounding) для агентных рабочих процессов:

Пространственное позиционирование — получение точных координат [x, y] элементов интерфейса.
Визуальные вычисления — использование Python для расчётов на основе данных с изображения.
Аудит интерфейса — автоматическая проверка перекрытий, выравнивания и доступности.

Требования

uv (менеджер пакетов Python)
Python 3.11 (зафиксирован для стабильности)
Переменная окружения GEMINI_API_KEY

Установка

Через ClawHub (рекомендуется)

clawhub install vision-sandbox

Для локальной разработки

git clone https://github.com/johanesalxd/vision-sandbox.git
cd vision-sandbox
uv sync

Быстрый старт

Запуск задачи компьютерного зрения через CLI:

uv run vision-sandbox --image "sample/how-many-fingers.png" --prompt "Count the fingers."

Пример: визуальное рассуждение

uv run vision-sandbox --image "sample/how-many-fingers.png" --prompt "Count the number of fingers on this hand. Use code execution to identify the bounding box for each finger and return the total count."

Результат: модель генерирует Python-код, который определяет bounding box для каждого пальца, обеспечивая точный подсчёт вместо визуального предположения.

Интеграция с OpenCode

Vision Sandbox выступает мощным дополнением к OpenCode, позволяя агентам получать точные визуальные данные и использовать их для автоматизации разработки и анализа интерфейсов.

Файл из источника

11882_vision-sandbox-1.1.0.zip

Интеграции: # Gemini 3 Pro # OpenClaw # python api # ui аудит # автоматизация # анализ изображений # компьютерное зрение # машинное обучение

Тип Скилл
Сложность Новичок
Дата обновления 13.04.2026
Автор opclpro
Просмотры 33

Скачать ZIP