Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
TL;DR: инструмент автоматически сравнивает два и более набора данных, выявляет несоответствия, пропущенные записи, дубликаты и расхождения значений, а затем формирует понятный отчёт об исключениях.
Data quality & reconciliation with exception — это инструмент (skill) для сверки данных, который использует устойчивые идентификаторы (например, номер сотрудника, водительское удостоверение, карта водителя и DQC), формируя отчёты об исключениях и внедряя механизм «без тихих ошибок» (no silent failure).
Его применяют в случаях, когда требуется регулярная (например, еженедельная) сверка данных с явным указанием причин, по которым записи не совпадают или не объединяются. :
Назначение
Основная задача — сопоставление различных источников данных по стабильным ключам и формирование детализированного отчёта об отклонениях. В отличие от простых сравнений, здесь каждая запись получает статус и причину: совпадение, отсутствие, дубликат, расхождение или ошибка.
Дополнительно реализована логика «без тихих ошибок»: если в процессе обнаруживаются аномалии или превышаются допустимые пороги, пайплайн останавливается, предотвращая скрытые проблемы в данных. :
Когда использовать
- Сверка двух источников данных с формированием отчёта об исключениях
- Сопоставление имён и табельных номеров между файлами
- Контроль ETL-пайплайнов с проверкой на расхождения
- Подготовка регулярных отчётов о пропущенных записях и дубликатах
- Построение системы оценки качества данных (scorecard)
Не подходит:
- если требуется неограниченный fuzzy matching без чётких критериев
- если в данных отсутствуют устойчивые идентификаторы
Входные данные
Обязательные:
- минимум два набора данных (CSV или XLSX)
- наличие ключевых идентификаторов (например, Pay Number)
- определение полей для сопоставления (имя, даты и т.д.)
Опциональные:
- правила нормализации (регистр, пробелы, пунктуация)
- пороговые значения (например, допустимый процент пропусков)
Примеры:
- выгрузка зарплат + реестр соответствия
- еженедельные выгрузки из разных систем
Результаты
- план сверки (правила, нормализация, стратегия объединения)
- спецификация отчёта об исключениях (формат CSV и коды причин)
- проверки отклонений (variance checks)
Успешный результат означает, что каждая запись классифицирована (совпадение, пропуск, дубликат, расхождение, ошибка) с явным объяснением причины, а любые аномалии останавливают процесс обработки данных. :
Процесс работы
- Подтверждение источников и приоритетов ключей (Pay Number → другие документы)
- Нормализация данных (удаление пробелов, унификация регистра и форматов)
- Проверка ключей (пустые значения, неверные форматы, дубликаты)
- Объединение данных (сначала по основному ключу, затем по вторичным)
- Формирование категорий исключений с причинами
- Применение «no silent failure» проверок
- Остановка и уточнение, если данные не определены корректно
Формат вывода
exception_type,reason,source_a_id,source_b_id,pay_number,name,field,source_a_value,source_b_value
Коды причин:
- MISSING_IN_A
- MISSING_IN_B
- MISMATCH
- DUPLICATE_KEY
- INVALID_KEY
Безопасность и крайние случаи
- работа в режиме только чтения — исходные данные не изменяются
- все исключения направляются на проверку
- приоритет — детерминированные правила, без неявного сопоставления
- ни одна запись не удаляется из анализа
Примеры использования
Пример 1:
Сверка payroll и compliance по табельному номеру с выявлением расхождений в именах → результат: план объединения + отчёт об ошибках.
Пример 2:
Часть записей не содержит ключа → используются вторичные идентификаторы, остальные помечаются как INVALID_KEY.
Файл из источника