Скиллы Новичок Исследования и аналитика

Data quality & reconciliation with exception

Скачать ZIP
11
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

TL;DR: инструмент автоматически сравнивает два и более набора данных, выявляет несоответствия, пропущенные записи, дубликаты и расхождения значений, а затем формирует понятный отчёт об исключениях.

Data quality & reconciliation with exception — это инструмент (skill) для сверки данных, который использует устойчивые идентификаторы (например, номер сотрудника, водительское удостоверение, карта водителя и DQC), формируя отчёты об исключениях и внедряя механизм «без тихих ошибок» (no silent failure).

Его применяют в случаях, когда требуется регулярная (например, еженедельная) сверка данных с явным указанием причин, по которым записи не совпадают или не объединяются. :

Назначение

Основная задача — сопоставление различных источников данных по стабильным ключам и формирование детализированного отчёта об отклонениях. В отличие от простых сравнений, здесь каждая запись получает статус и причину: совпадение, отсутствие, дубликат, расхождение или ошибка.

Дополнительно реализована логика «без тихих ошибок»: если в процессе обнаруживаются аномалии или превышаются допустимые пороги, пайплайн останавливается, предотвращая скрытые проблемы в данных. :

Когда использовать

  • Сверка двух источников данных с формированием отчёта об исключениях
  • Сопоставление имён и табельных номеров между файлами
  • Контроль ETL-пайплайнов с проверкой на расхождения
  • Подготовка регулярных отчётов о пропущенных записях и дубликатах
  • Построение системы оценки качества данных (scorecard)

Не подходит:

  • если требуется неограниченный fuzzy matching без чётких критериев
  • если в данных отсутствуют устойчивые идентификаторы

Входные данные

Обязательные:

  • минимум два набора данных (CSV или XLSX)
  • наличие ключевых идентификаторов (например, Pay Number)
  • определение полей для сопоставления (имя, даты и т.д.)

Опциональные:

  • правила нормализации (регистр, пробелы, пунктуация)
  • пороговые значения (например, допустимый процент пропусков)

Примеры:

  • выгрузка зарплат + реестр соответствия
  • еженедельные выгрузки из разных систем

Результаты

  • план сверки (правила, нормализация, стратегия объединения)
  • спецификация отчёта об исключениях (формат CSV и коды причин)
  • проверки отклонений (variance checks)

Успешный результат означает, что каждая запись классифицирована (совпадение, пропуск, дубликат, расхождение, ошибка) с явным объяснением причины, а любые аномалии останавливают процесс обработки данных. :

Процесс работы

  1. Подтверждение источников и приоритетов ключей (Pay Number → другие документы)
  2. Нормализация данных (удаление пробелов, унификация регистра и форматов)
  3. Проверка ключей (пустые значения, неверные форматы, дубликаты)
  4. Объединение данных (сначала по основному ключу, затем по вторичным)
  5. Формирование категорий исключений с причинами
  6. Применение «no silent failure» проверок
  7. Остановка и уточнение, если данные не определены корректно

Формат вывода

exception_type,reason,source_a_id,source_b_id,pay_number,name,field,source_a_value,source_b_value

Коды причин:

  • MISSING_IN_A
  • MISSING_IN_B
  • MISMATCH
  • DUPLICATE_KEY
  • INVALID_KEY

Безопасность и крайние случаи

  • работа в режиме только чтения — исходные данные не изменяются
  • все исключения направляются на проверку
  • приоритет — детерминированные правила, без неявного сопоставления
  • ни одна запись не удаляется из анализа

Примеры использования

Пример 1:
Сверка payroll и compliance по табельному номеру с выявлением расхождений в именах → результат: план объединения + отчёт об ошибках.

Пример 2:
Часть записей не содержит ключа → используются вторичные идентификаторы, остальные помечаются как INVALID_KEY.


Файл из источника

10903_data-reconciliation-exceptions-1.0.0.zip