Скиллы Новичок Исследования и аналитика

Analysis & Statistics

Предупреждение о рисках!

Установка скиллов и плагинов OpenClaw осуществляется на ваш страх и риск. Все файлы были получены из открытых источников и предоставляются «как есть». Мы не гарантируем их корректную работу, безопасность или совместимость с вашей системой. Перед установкой настоятельно рекомендуется ознакомиться с содержимым кода и убедиться, что вы понимаете, какие изменения будут внесены в вашу систему.

Анализ и статистика

Разведочный анализ данных (EDA)

Первичный чек-лист

Размер данных (строки × столбцы)
Типы и названия колонок
Количество и структура пропусков
Числовая сводка (среднее, медиана, стандартное отклонение, минимум, максимум, квартили)
Категориальная сводка (уникальные значения, самые частые)
Диапазоны дат (минимум, максимум, разрывы)
Очевидные выбросы или аномалии

Анализ распределений

Гистограммы для числовых переменных — проверка асимметрии и мультимодальности
Подсчет значений для категорий — проверка дисбаланса
Box-plot для поиска выбросов — метод IQR
Графики временных рядов — тренды и сезонность

Корреляционный анализ

Pearson — линейные зависимости (числовые данные)
Spearman — монотонные зависимости (порядковые данные)
Point-biserial — числовая vs бинарная переменная
Chi-square — категориальные переменные

Ловушка: корреляция ≠ причинность. Всегда указывайте это в выводах.

Статистические тесты

Выбор правильного теста

Вопрос	Тип данных	Тест
Различаются средние? (2 группы)	Числовые, нормальные	t-тест
Различаются средние? (2 группы)	Числовые, ненормальные	Mann-Whitney U
Различаются средние? (3+ группы)	Числовые, нормальные	ANOVA
Различаются средние? (3+ группы)	Числовые, ненормальные	Kruskal-Wallis
Различаются доли?	Категориальные	Chi-square
Есть ли связь?	Обе числовые	Корреляция
До/после изменения?	Парные числовые	Парный t-тест

Проверка предположений

Нормальность: тест Шапиро–Уилка, Q-Q график
Гомогенность дисперсий: тест Левена
Независимость: определяется дизайном исследования
Размер выборки: правило — n ≥ 30 для параметрических тестов

Интерпретация результатов

В отчете указывайте:

Значение статистики теста
p-value
Размер эффекта (Cohen’s d, r², odds ratio)
Доверительный интервал
Практическую значимость, а не только статистическую

A/B тестирование

Перед запуском

Четко определить метрику успеха
Рассчитать необходимый размер выборки (power analysis)
Установить уровень значимости (обычно α = 0.05)
Определить минимальный обнаруживаемый эффект

Во время анализа

Проверить рандомизацию — группы должны быть сопоставимы
Проверить соотношение выборки — например, 50/50
Рассчитать метрику для каждой группы
Провести соответствующий статистический тест
Посчитать доверительный интервал
Проверить эффект новизны (если есть временной фактор)

Типичные ошибки

Peeking — частая проверка значимости увеличивает риск ложноположительных результатов
Post-hoc сегментация — поиск “работающих” сегментов задним числом
Игнорирование размера эффекта — значимо ≠ важно
Слишком короткий тест — влияние дней недели и эффекта новизны

Поиск закономерностей

Сегментация

K-means — для числовых признаков
Иерархическая кластеризация — для интерпретируемых кластеров
DBSCAN — для произвольных форм и поиска выбросов
RFM (Recency, Frequency, Monetary) — для анализа клиентов

Поиск аномалий

Z-score: |z| > 3 обычно считается аномалией
IQR: ниже Q1 − 1.5×IQR или выше Q3 + 1.5×IQR
Isolation Forest — для многомерных данных
Временные ряды: декомпозиция + анализ остатков

Анализ трендов

Скользящие средние — для сглаживания
Сравнения год к году, месяц к месяцу
Декомпозиция: тренд + сезонность + остаток
Темп роста: (текущее − предыдущее) / предыдущее

Файл из источника

10900_data-analysis-1.0.2.zip

Тип Скилл
Сложность Новичок
Дата обновления 11.04.2026
Автор opclpro
Просмотры 27

Скачать ZIP