Скиллы Новичок Исследования и аналитика

csv-pipeline

Скачать ZIP
14
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

csv-pipeline — это навык для обработки, трансформации и анализа табличных данных в форматах CSV, TSV и JSON с использованием Python 3 и стандартных инструментов командной строки.

Он поддерживает фильтрацию, объединение (join), агрегацию, удаление дубликатов, конвертацию форматов и генерацию отчётов в Markdown — без необходимости устанавливать сторонние библиотеки. :

Что делает этот навык

csv-pipeline покрывает полный цикл ETL (Extract, Transform, Load): от извлечения данных до их преобразования и загрузки в нужный формат. Он способен обрабатывать даже большие файлы в потоковом режиме и не требует использования pandas, баз данных или дополнительных пакетов — достаточно Python 3.

Когда использовать

  • Фильтрация записей продаж по заданному порогу суммы
  • Объединение таблиц клиентов и заказов по общему идентификатору
  • Конвертация JSON-ответов API в CSV для работы в таблицах
  • Удаление дубликатов в списке email перед рассылкой
  • Создание агрегированных отчётов по транзакциям

Поддерживаемые операции

Навык позволяет выполнять широкий спектр операций над табличными данными:

  • Фильтрация строк по условиям
  • Объединение (join) нескольких наборов данных
  • Группировка и агрегация значений
  • Сортировка и удаление дубликатов
  • Преобразование форматов (CSV ↔ JSON)
  • Генерация отчётов и сводных таблиц

Пример рабочего процесса

Рассмотрим типичный сценарий использования навыка:

Вход:
Пользователь предоставляет файлы orders.csv и customers.csv и просит объединить их по полю customer_id, а затем посчитать выручку по категориям.

Действия агента:

  1. Считывает оба CSV-файла как списки словарей
  2. Выполняет левое объединение заказов с таблицей клиентов
  3. Группирует данные по категориям
  4. Суммирует значения выручки
  5. Сохраняет результат в summary.csv
  6. Создаёт Markdown-отчёт со статистикой (количество, сумма, среднее, минимум, максимум)

Результат:
Файл summary.csv с итогами по категориям и report.md с наглядной сводной таблицей.

Быстрые операции через CLI

Навык активно использует стандартные инструменты командной строки для работы с данными:

# Просмотр первых строк
head -5 data.csv

# Подсчёт количества строк
tail -n +2 data.csv | wc -l

# Получение заголовков колонок
head -1 data.csv

Фильтрация и агрегация

# Фильтр по значению
awk -F',' 'NR==1 || $3 > 100' data.csv > filtered.csv

# Сумма по колонке
awk -F',' 'NR>1 {sum += $4} END {print sum}' data.csv

Сортировка и удаление дубликатов

# Сортировка
sort -t ',' -k2 -n data.csv

# Удаление дубликатов
sort -u data.csv

Итог

csv-pipeline — это лёгкий и универсальный инструмент для работы с табличными данными, который закрывает большинство задач анализа и трансформации без лишней сложности. Он особенно полезен в автоматизированных пайплайнах и сценариях, где важно быстро обработать данные без настройки тяжёлых зависимостей.


Файл из источника

10892_csv-pipeline-1.0.0.zip