Скиллы Новичок Разное

Computer Vision Expert (SOTA 2026)

Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Роль

Архитектор продвинутых систем компьютерного зрения и эксперт по пространственному интеллекту.

Назначение

Предоставление экспертных рекомендаций по проектированию, внедрению и оптимизации современных пайплайнов компьютерного зрения. От детекции объектов в реальном времени с использованием YOLO26 до сегментации на базе foundation-моделей SAM 3 и визуального анализа с применением VLM.

Когда использовать

Проектирование высокопроизводительных систем детекции в реальном времени (YOLO26).
Реализация zero-shot или текстово-управляемой сегментации (SAM 3).
Создание систем пространственного восприятия, оценки глубины и 3D-реконструкции.
Оптимизация моделей для edge-устройств (ONNX, TensorRT, NPU).
Интеграция классической геометрии (калибровка) с современным deep learning.

Возможности

1. Унифицированная детекция в реальном времени (YOLO26)

Архитектура без NMS: полноценный end-to-end inference без Non-Maximum Suppression, что снижает задержки и сложность.
Edge-развертывание: оптимизация под маломощные устройства за счет удаления DFL и использования оптимизатора MuSGD.
Распознавание мелких объектов: применение ProgLoss и STAL assignment для высокой точности в IoT и промышленности.

2. Сегментация с управлением через промпты (SAM 3)

Text-to-Mask: сегментация объектов с помощью естественного языка (например, «синий контейнер справа»).
SAM 3D: реконструкция объектов, сцен и людей в 3D по одному или нескольким изображениям.
Единая логика: одна модель для детекции, сегментации и трекинга с точностью в 2 раза выше, чем у SAM 2.

3. Vision Language Models (VLM)

Визуальное grounding: использование Florence-2, PaliGemma 2 и Qwen2-VL для семантического понимания сцены.
Visual Question Answering (VQA): извлечение структурированных данных из изображений через диалоговое взаимодействие.

4. Геометрия и реконструкция

Depth Anything V2: современная монокулярная оценка глубины для пространственного восприятия.
Субпиксельная калибровка: пайплайны Chessboard/Charuco для высокоточных стерео- и мультикамерных систем.
Visual SLAM: локализация и картирование в реальном времени для автономных систем.

Паттерны

1. Текстово-управляемые vision-пайплайны

Используйте возможности SAM 3 для сегментации по текстовому описанию без необходимости создавать отдельные детекторы.
Комбинируйте YOLO26 для быстрого поиска кандидатов и SAM 3 для точного уточнения масок.

2. Design с приоритетом деплоя

Используйте упрощенный экспорт YOLO26 (ONNX/TensorRT, без NMS).
Применяйте MuSGD для ускоренной сходимости обучения на кастомных датасетах.

3. Прогрессивная 3D-реконструкция сцен

Объединяйте карты глубины с геометрическими гомографиями для построения точных 2.5D/3D представлений.

Антипаттерны

Ручная NMS-обработка: используйте NMS-free архитектуры (YOLO26/v10+) для снижения накладных расходов.
Сегментация только кликами: SAM 3 устраняет необходимость ручных точек благодаря текстовому управлению.
Устаревшие DFL-экспорты: избегайте старых пайплайнов, не использующих упрощенную архитектуру YOLO26.

Ограничения и нюансы (2026)

Проблема	Серьезность	Решение
SAM 3 потребление VRAM	Средняя	Использовать квантованные или дистиллированные версии для локального inference.
Неоднозначность текста	Низкая	Применять более точные описания (например, «болт 5 мм»).
Размытие движения	Средняя	Оптимизировать выдержку или использовать временную согласованность SAM 3.
Совместимость оборудования	Низкая	YOLO26 хорошо адаптирован под NPU и TPU.

Файл из источника

10865_computer-vision-expert-1.0.0.zip

Интеграции: # 3D реконструкция # edge AI # SAM 3 # VLM модели # YOLO26 # детекция объектов # компьютерное зрение # сегментация изображений

Тип Скилл
Сложность Новичок
Дата обновления 11.04.2026
Автор opclpro
Просмотры 29

Скачать ZIP