Скиллы Новичок Исследования и аналитика

Analysis & Statistics

Скачать ZIP
11
Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Анализ и статистика

Разведочный анализ данных (EDA)

Первичный чек-лист

  • Размер данных (строки × столбцы)
  • Типы и названия колонок
  • Количество и структура пропусков
  • Числовая сводка (среднее, медиана, стандартное отклонение, минимум, максимум, квартили)
  • Категориальная сводка (уникальные значения, самые частые)
  • Диапазоны дат (минимум, максимум, разрывы)
  • Очевидные выбросы или аномалии

Анализ распределений

  • Гистограммы для числовых переменных — проверка асимметрии и мультимодальности
  • Подсчет значений для категорий — проверка дисбаланса
  • Box-plot для поиска выбросов — метод IQR
  • Графики временных рядов — тренды и сезонность

Корреляционный анализ

  • Pearson — линейные зависимости (числовые данные)
  • Spearman — монотонные зависимости (порядковые данные)
  • Point-biserial — числовая vs бинарная переменная
  • Chi-square — категориальные переменные

Ловушка: корреляция ≠ причинность. Всегда указывайте это в выводах.

Статистические тесты

Выбор правильного теста

Вопрос Тип данных Тест
Различаются средние? (2 группы) Числовые, нормальные t-тест
Различаются средние? (2 группы) Числовые, ненормальные Mann-Whitney U
Различаются средние? (3+ группы) Числовые, нормальные ANOVA
Различаются средние? (3+ группы) Числовые, ненормальные Kruskal-Wallis
Различаются доли? Категориальные Chi-square
Есть ли связь? Обе числовые Корреляция
До/после изменения? Парные числовые Парный t-тест

Проверка предположений

  • Нормальность: тест Шапиро–Уилка, Q-Q график
  • Гомогенность дисперсий: тест Левена
  • Независимость: определяется дизайном исследования
  • Размер выборки: правило — n ≥ 30 для параметрических тестов

Интерпретация результатов

В отчете указывайте:

  • Значение статистики теста
  • p-value
  • Размер эффекта (Cohen’s d, r², odds ratio)
  • Доверительный интервал
  • Практическую значимость, а не только статистическую

A/B тестирование

Перед запуском

  • Четко определить метрику успеха
  • Рассчитать необходимый размер выборки (power analysis)
  • Установить уровень значимости (обычно α = 0.05)
  • Определить минимальный обнаруживаемый эффект

Во время анализа

  1. Проверить рандомизацию — группы должны быть сопоставимы
  2. Проверить соотношение выборки — например, 50/50
  3. Рассчитать метрику для каждой группы
  4. Провести соответствующий статистический тест
  5. Посчитать доверительный интервал
  6. Проверить эффект новизны (если есть временной фактор)

Типичные ошибки

  • Peeking — частая проверка значимости увеличивает риск ложноположительных результатов
  • Post-hoc сегментация — поиск “работающих” сегментов задним числом
  • Игнорирование размера эффекта — значимо ≠ важно
  • Слишком короткий тест — влияние дней недели и эффекта новизны

Поиск закономерностей

Сегментация

  • K-means — для числовых признаков
  • Иерархическая кластеризация — для интерпретируемых кластеров
  • DBSCAN — для произвольных форм и поиска выбросов
  • RFM (Recency, Frequency, Monetary) — для анализа клиентов

Поиск аномалий

  • Z-score: |z| > 3 обычно считается аномалией
  • IQR: ниже Q1 − 1.5×IQR или выше Q3 + 1.5×IQR
  • Isolation Forest — для многомерных данных
  • Временные ряды: декомпозиция + анализ остатков

Анализ трендов

  • Скользящие средние — для сглаживания
  • Сравнения год к году, месяц к месяцу
  • Декомпозиция: тренд + сезонность + остаток
  • Темп роста: (текущее − предыдущее) / предыдущее

Файл из источника

10900_data-analysis-1.0.2.zip