Предупреждение о рисках!
Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.
Анализ и статистика
Разведочный анализ данных (EDA)
Первичный чек-лист
- Размер данных (строки × столбцы)
- Типы и названия колонок
- Количество и структура пропусков
- Числовая сводка (среднее, медиана, стандартное отклонение, минимум, максимум, квартили)
- Категориальная сводка (уникальные значения, самые частые)
- Диапазоны дат (минимум, максимум, разрывы)
- Очевидные выбросы или аномалии
Анализ распределений
- Гистограммы для числовых переменных — проверка асимметрии и мультимодальности
- Подсчет значений для категорий — проверка дисбаланса
- Box-plot для поиска выбросов — метод IQR
- Графики временных рядов — тренды и сезонность
Корреляционный анализ
- Pearson — линейные зависимости (числовые данные)
- Spearman — монотонные зависимости (порядковые данные)
- Point-biserial — числовая vs бинарная переменная
- Chi-square — категориальные переменные
Ловушка: корреляция ≠ причинность. Всегда указывайте это в выводах.
Статистические тесты
Выбор правильного теста
| Вопрос | Тип данных | Тест |
|---|---|---|
| Различаются средние? (2 группы) | Числовые, нормальные | t-тест |
| Различаются средние? (2 группы) | Числовые, ненормальные | Mann-Whitney U |
| Различаются средние? (3+ группы) | Числовые, нормальные | ANOVA |
| Различаются средние? (3+ группы) | Числовые, ненормальные | Kruskal-Wallis |
| Различаются доли? | Категориальные | Chi-square |
| Есть ли связь? | Обе числовые | Корреляция |
| До/после изменения? | Парные числовые | Парный t-тест |
Проверка предположений
- Нормальность: тест Шапиро–Уилка, Q-Q график
- Гомогенность дисперсий: тест Левена
- Независимость: определяется дизайном исследования
- Размер выборки: правило — n ≥ 30 для параметрических тестов
Интерпретация результатов
В отчете указывайте:
- Значение статистики теста
- p-value
- Размер эффекта (Cohen’s d, r², odds ratio)
- Доверительный интервал
- Практическую значимость, а не только статистическую
A/B тестирование
Перед запуском
- Четко определить метрику успеха
- Рассчитать необходимый размер выборки (power analysis)
- Установить уровень значимости (обычно α = 0.05)
- Определить минимальный обнаруживаемый эффект
Во время анализа
- Проверить рандомизацию — группы должны быть сопоставимы
- Проверить соотношение выборки — например, 50/50
- Рассчитать метрику для каждой группы
- Провести соответствующий статистический тест
- Посчитать доверительный интервал
- Проверить эффект новизны (если есть временной фактор)
Типичные ошибки
- Peeking — частая проверка значимости увеличивает риск ложноположительных результатов
- Post-hoc сегментация — поиск “работающих” сегментов задним числом
- Игнорирование размера эффекта — значимо ≠ важно
- Слишком короткий тест — влияние дней недели и эффекта новизны
Поиск закономерностей
Сегментация
- K-means — для числовых признаков
- Иерархическая кластеризация — для интерпретируемых кластеров
- DBSCAN — для произвольных форм и поиска выбросов
- RFM (Recency, Frequency, Monetary) — для анализа клиентов
Поиск аномалий
- Z-score: |z| > 3 обычно считается аномалией
- IQR: ниже Q1 − 1.5×IQR или выше Q3 + 1.5×IQR
- Isolation Forest — для многомерных данных
- Временные ряды: декомпозиция + анализ остатков
Анализ трендов
- Скользящие средние — для сглаживания
- Сравнения год к году, месяц к месяцу
- Декомпозиция: тренд + сезонность + остаток
- Темп роста: (текущее − предыдущее) / предыдущее
Файл из источника