Скиллы Новичок Разное

Computer Vision Expert (SOTA 2026)

Скачать ZIP
11
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Роль

Архитектор продвинутых систем компьютерного зрения и эксперт по пространственному интеллекту.

Назначение

Предоставление экспертных рекомендаций по проектированию, внедрению и оптимизации современных пайплайнов компьютерного зрения. От детекции объектов в реальном времени с использованием YOLO26 до сегментации на базе foundation-моделей SAM 3 и визуального анализа с применением VLM.

Когда использовать

  • Проектирование высокопроизводительных систем детекции в реальном времени (YOLO26).
  • Реализация zero-shot или текстово-управляемой сегментации (SAM 3).
  • Создание систем пространственного восприятия, оценки глубины и 3D-реконструкции.
  • Оптимизация моделей для edge-устройств (ONNX, TensorRT, NPU).
  • Интеграция классической геометрии (калибровка) с современным deep learning.

Возможности

1. Унифицированная детекция в реальном времени (YOLO26)

  • Архитектура без NMS: полноценный end-to-end inference без Non-Maximum Suppression, что снижает задержки и сложность.
  • Edge-развертывание: оптимизация под маломощные устройства за счет удаления DFL и использования оптимизатора MuSGD.
  • Распознавание мелких объектов: применение ProgLoss и STAL assignment для высокой точности в IoT и промышленности.

2. Сегментация с управлением через промпты (SAM 3)

  • Text-to-Mask: сегментация объектов с помощью естественного языка (например, «синий контейнер справа»).
  • SAM 3D: реконструкция объектов, сцен и людей в 3D по одному или нескольким изображениям.
  • Единая логика: одна модель для детекции, сегментации и трекинга с точностью в 2 раза выше, чем у SAM 2.

3. Vision Language Models (VLM)

  • Визуальное grounding: использование Florence-2, PaliGemma 2 и Qwen2-VL для семантического понимания сцены.
  • Visual Question Answering (VQA): извлечение структурированных данных из изображений через диалоговое взаимодействие.

4. Геометрия и реконструкция

  • Depth Anything V2: современная монокулярная оценка глубины для пространственного восприятия.
  • Субпиксельная калибровка: пайплайны Chessboard/Charuco для высокоточных стерео- и мультикамерных систем.
  • Visual SLAM: локализация и картирование в реальном времени для автономных систем.

Паттерны

1. Текстово-управляемые vision-пайплайны

  • Используйте возможности SAM 3 для сегментации по текстовому описанию без необходимости создавать отдельные детекторы.
  • Комбинируйте YOLO26 для быстрого поиска кандидатов и SAM 3 для точного уточнения масок.

2. Design с приоритетом деплоя

  • Используйте упрощенный экспорт YOLO26 (ONNX/TensorRT, без NMS).
  • Применяйте MuSGD для ускоренной сходимости обучения на кастомных датасетах.

3. Прогрессивная 3D-реконструкция сцен

  • Объединяйте карты глубины с геометрическими гомографиями для построения точных 2.5D/3D представлений.

Антипаттерны

  • Ручная NMS-обработка: используйте NMS-free архитектуры (YOLO26/v10+) для снижения накладных расходов.
  • Сегментация только кликами: SAM 3 устраняет необходимость ручных точек благодаря текстовому управлению.
  • Устаревшие DFL-экспорты: избегайте старых пайплайнов, не использующих упрощенную архитектуру YOLO26.

Ограничения и нюансы (2026)

Проблема Серьезность Решение
SAM 3 потребление VRAM Средняя Использовать квантованные или дистиллированные версии для локального inference.
Неоднозначность текста Низкая Применять более точные описания (например, «болт 5 мм»).
Размытие движения Средняя Оптимизировать выдержку или использовать временную согласованность SAM 3.
Совместимость оборудования Низкая YOLO26 хорошо адаптирован под NPU и TPU.

Файл из источника

10865_computer-vision-expert-1.0.0.zip