Данные: мышление и инструменты
Шесть модулей, шесть месяцев, портфолио из шести публичных кейсов
Базовый трек подготовки к позиции junior data analyst для взрослых 25–40 без технического бэкграунда. От бизнес-вопроса до SQL, BI-дашборда, статистических проверок и Python-капстона. На выходе — публичные артефакты в GitHub и Looker Studio, с которыми можно идти на собеседования.
Офисный пользователь с базовым Excel. Не-программист. SQL и Python с нуля. Бизнес-опыт не обязателен — закрывает онбординг.
Junior data analyst entry-level: SQL с окнами и CTE, BI-дашборд по принципам Tufte, базовая статистика и A/B-тесты, Python pandas + капстон.
1 модуль = 1 месяц. Минимальный темп — 2 недели на модуль (для срабатывания SRS). Рекомендуемая нагрузка — 30–45 мин/день.
75% практики против 25% теории
В среднем по модулю в Basic: 16 мини-видео ≈ 60 мин теории против ≈ 180 мин практики (тренажёры, micro-output, weekly-артефакты, чек-поинт). В Pro практики больше за счёт АИ-ревью кода и расширенных задач.
Онбординг + шесть модулей · от вопроса до капстона
Зачем тебе data analytics
Закрыть пропасть «хочу выучить data analytics» ↔ «понимаю, что это и зачем». До старта Модуля 1 показать роль аналитика изнутри: бизнес-контекст, день из жизни, типы аналитиков, рынок РФ.
- 0.15 минЧто такое data analytics за 5 минутМетафора «детектив для бизнеса» + 5 типов вопросов: descriptive, diagnostic, predictive, prescriptive, experimental.
- 0.25 минЗачем бизнес платит аналитикамБизнес тонет в данных. Решения наугад дороги. 3 кейса с конкретными цифрами ROI.
- 0.37 минОдин день junior data analyst в e-commerceКонкретный нарратив: утренний sync → запрос от продакта → SQL → pandas → дашборд → презентация выводов.
- 0.45 мин5 типов аналитиков и где они работаютПродуктовый, маркетинг, BI, операционный, финансовый. Где работают, зарплаты в РФ, как переходят между.
- 0.54 минКарта трека «Данные: мышление и инструменты»Обзор 6 модулей. Что будет легко, что трудно. Когда ожидать «плато».
- ●Готов ли ты технически?
- ●Какой ты тип аналитика?
- ●Что ты хочешь через 6 месяцев?
200–300 слов или 60-секундное голосовое: кто я → зачем мне DA → какой тип аналитика мне ближе → что я планирую через 6 месяцев → что готов делать каждый день. Сохраняется в профиле и показывается на 30/60/90-й день и в финале трека как commitment device.
От Excel и SMART-вопросов до Python и капстон-исследования
Мышление аналитика + Excel
Сформулировать SMART-вопрос к данным. Освоить гигиену данных. Уверенно работать в Excel/Sheets: сводные, Power Query, ключевые формулы. Построить первое мини-исследование на открытых данных.
- SMART-вопрос к данным (кто-что-когда-в каком срезе-по сравнению с чем)
- Tidy data: 1 строка = 1 наблюдение, 1 колонка = 1 свойство
- Типы данных и приведение в Excel/Power Query
- Работа с датами: ISO-формат, серийные числа
- XLOOKUP, SUMIFS, COUNTIFS, AVERAGEIFS
- IF, IFS, LET — условная логика
- UNIQUE, FILTER, SORT — динамические массивы
- Сводные таблицы и срезы
- Power Query: импорт, объединение, refresh
- Базовая визуализация — один график, одна мысль
- 1.1Зачем аналитик. Чем отличается «посмотри данные» от работы аналитика
- 1.2SMART-вопрос к данным
- 1.3Гипотеза и её проверка
- 1.4Корреляция ≠ причинность: ловушка новичка
- 2.1Что такое tidy data
- 2.2Типы данных и почему это важно
- 2.3Даты: почему Excel — это боль
- 2.4Пропуски и дубликаты
- 3.1XLOOKUP: соединение двух таблиц
- 3.2SUMIFS, COUNTIFS, AVERAGEIFS
- 3.3IF, IFS, LET
- 3.4UNIQUE, FILTER, SORT
- 4.1Сводная таблица: ваш главный инструмент
- 4.2Power Query: импорт и очистка
- 4.3Первый честный график
- 4.4Сборка: от вопроса к отчёту
1-страничный отчёт в Excel/Sheets + 1-минутное голосовое видео. Структура: бизнес-контекст → 3 SMART-вопроса → ответы со сводными/графиками → вывод и рекомендация.
SQL: разговор с данными (база)
Освоить базовый SQL: SELECT, WHERE, ORDER BY, DISTINCT. Агрегации с GROUP BY и HAVING. Соединение таблиц через INNER JOIN и LEFT JOIN. Базовые функции дат и строк.
- Реляционная модель: таблицы, ключи (PK/FK), связи
- SELECT, FROM, WHERE, ORDER BY, LIMIT, DISTINCT
- WHERE-логика: AND/OR/NOT, IN, BETWEEN, LIKE, IS NULL
- Агрегации: COUNT(*), COUNT(DISTINCT), SUM, AVG, MIN, MAX
- GROUP BY и HAVING (разница с WHERE)
- INNER JOIN и LEFT JOIN
- Цепочка JOIN-ов на 3+ таблицы
- Дата-функции: DATE_TRUNC, EXTRACT, INTERVAL
- 5.1Реляционная база за 4 минуты
- 5.2Первый SELECT: показать всё / показать колонки
- 5.3WHERE: первый фильтр
- 5.4ORDER BY и LIMIT: первые правила
- 6.1IN, NOT IN, BETWEEN
- 6.2LIKE / ILIKE и поиск по шаблону
- 6.3NULL: главная ловушка SQL
- 6.4DISTINCT: когда нужен, когда мешает
- 7.1Считаем: COUNT, SUM, AVG, MIN, MAX
- 7.2COUNT(*) vs COUNT(column) vs COUNT(DISTINCT)
- 7.3GROUP BY: режем по группам
- 7.4HAVING vs WHERE
- 8.1Зачем JOIN. INNER JOIN на пальцах
- 8.2LEFT JOIN: сохраняем «бездомных»
- 8.3JOIN + GROUP BY: главный паттерн аналитика
- 8.4Цепочка JOIN-ов: 3+ таблицы
Подборка из 20 запросов разной сложности (от базовых до сцепок), опубликованная в GitHub Gist с README по каждому: бизнес-вопрос → запрос → цифра-ответ → интерпретация.
SQL: продвинутый + чистка данных
Освоить CTE и оконные функции. 5 ключевых бизнес-паттернов: когортный retention, conversion funnel, top-N per group, running total/MoM, RFM-сегментация. Чистка «грязных» данных в SQL.
- CTE: WITH ... AS, цепочка CTE
- Подзапросы: scalar, IN/EXISTS, в FROM
- Оконные функции: ROW_NUMBER, RANK, DENSE_RANK, LAG/LEAD, SUM/AVG OVER
- PARTITION BY и ORDER BY внутри окна
- Frame: ROWS BETWEEN ... для running total и rolling
- CASE WHEN для условной логики и сегментации
- NULL-логика: COALESCE, NULLIF, агрегаты с NULL
- Чистка строк: TRIM, LOWER, REPLACE, базовый regex
- Безопасный CAST через CASE
- 5 бизнес-паттернов: когорта/funnel/top-N/running total/RFM
- CTE как именованные шаги. Сложный запрос = последовательность именованных шагов через WITH. Читается сверху вниз, как инструкция.
- Окно = GROUP BY, который не схлопывает. GROUP BY: 1000 строк → 5 строк сводной. Окно: 1000 строк → 1000 строк, в каждой добавлен агрегат группы.
- PARTITION BY = деление плоскости. PARTITION BY задаёт границы рамки окна (по странам / по пользователям). ORDER BY — порядок движения внутри.
- NULL = неизвестно, не пусто. NULL ≠ NULL. WHERE col != X пропускает NULL. SUM пропускает NULL. Это объясняет 90% «у меня цифра не сходится».
- Запрос — это конвейер. Логический порядок: FROM → JOIN → WHERE → GROUP BY → HAVING → SELECT → DISTINCT → ORDER BY → LIMIT.
- 9.1Когда JOIN + GROUP BY уже не хватает
- 9.2CTE: именованные шаги решения
- 9.3Подзапросы: scalar и в WHERE
- 9.4EXISTS vs IN: когда что
- 10.1Зачем окна: ментальная модель
- 10.2PARTITION BY: делим на участки
- 10.3ROW_NUMBER, RANK, DENSE_RANK
- 10.4LAG и LEAD: сравнение со «соседом»
- 11.1SUM/AVG OVER + frame: running total
- 11.2Rolling average и MoM
- 11.3Top-N per group: магия PARTITION BY
- 11.4CASE WHEN: условная логика и сегментация
- 12.1NULL — это не ноль и не пусто
- 12.2COALESCE, NULLIF, защита от деления на ноль
- 12.3Чистка строк в SQL: разный регистр, пробелы, опечатки
- 12.4Сборка: от грязных данных до отчёта
10 бизнес-вопросов, каждый — одним запросом с CTE и/или окнами. Когортный retention, conversion funnel, top-N per group, RFM, MoM-рост, дедупликация по чистке. Публикуется в публичном GitHub-репозитории.
Визуализация и BI: дашборды, которые принимают решения
Освоить принципы Tufte/гештальта/pre-attentive. Уверенно работать в Looker Studio: подключение, blends, расчётные поля, фильтры, drill-down, публикация. Знать Power BI как «второй язык». Применять data storytelling.
- 5 принципов Tufte: data-ink, нулевая ось, цвет=смысл, минус chartjunk, контекст
- Гештальт: proximity / similarity / enclosure / continuity / closure
- Pre-attentive: цвет / размер / position / orientation / length
- 8 типов графиков и когда какой
- Цветовая теория: sequential / diverging / categorical, colorblind-friendly
- Looker Studio: подключения, blends, controls, drill-down, themes, publish
- Расчётные поля Looker: SAFE_DIVIDE, CASE, DATETIME_DIFF, REGEXP
- Power BI обзорно: интерфейс, базовый DAX (5 функций)
- Storytelling: glance / scan / investigate, F-pattern, Z-pattern
- Дашборд = ответ на вопрос. Если ты не можешь объяснить вопрос дашборда в одном предложении за 5 секунд — сначала сформулируй вопрос.
- Data-ink ratio (Tufte). data-ink / total-ink. Если можешь убрать пиксель без потери смысла — убирай.
- Гештальт: глаз группирует автоматически. Близость / схожесть / рамка / выравнивание управляют вниманием. Используй их осознанно.
- Pre-attentive за 200 мс. 1 яркий цвет на сером фоне = магнит. Если все элементы выделены — никто не выделен.
- F-pattern и Z-pattern. Главный KPI — верх-лево, action — низ-право. Размещай по приоритету чтения.
- 13.1Дашборд = ответ на вопрос, а не панель метрик
- 13.2Tufte за 5 минут: data-ink, chartjunk, lie factor
- 13.3Выбор типа графика: 8 типов и когда какой
- 13.4Манипуляции: галерея «как графики врут»
- 14.1Looker Studio за 5 минут: интерфейс и логика
- 14.2Первая визуализация: KPI-карточка
- 14.3Bar chart, line chart, scatter — три рабочие лошадки
- 14.4Контролы и фильтры: интерактив за 5 минут
- 15.1Расчётные поля Looker Studio: ratio, MoM, % of total
- 15.2Цветовая палитра: 3 типа, colorblind-friendly
- 15.3Visual hierarchy: главное на дашборде
- 15.4Гештальт-группировка элементов
- 16.1Storytelling: дашборд как narrative
- 16.2Mobile-responsiveness: дашборд на телефоне
- 16.3Power BI обзор: интерфейс и базовый DAX
- 16.4Подготовка артефакта: чек-лист 12 принципов
1-страничный дашборд с главным KPI + 4–5 визуализаций + 2–4 фильтра, опубликованный по public-ссылке. README с разделом «Решения по дизайну».
Статистика для аналитика: численная честность
Перейти от «цифра = факт» к «цифра = диапазон с обоснованной интерпретацией». Описательная статистика, доверительные интервалы, A/B-тесты, антипаттерны (p-hacking, multiple testing, Simpson).
- Меры центра: mean / median / mode + когда какой
- Меры разброса: std / IQR / quartile / percentile
- Распределения: normal / lognormal / skewed / bimodal / heavy-tailed
- Visualization: histogram / boxplot / ECDF
- Sampling: population vs sample, bias-ы, sample size
- Доверительные интервалы через bootstrap
- Гипотезы: H0/H1, p-value (правильная интерпретация)
- A/B-тест: дизайн, MDE, primary + guardrail metrics
- Effect size: Cohen's d, lift, абсолют
- Антипаттерны: p-hacking, HARKing, multiple testing, Simpson
- 5 вопросов скептика к любой цифре
- Распределение, а не одно число. Любая цифра — сжатие распределения. Сжатие теряет информацию. Всегда смотри histogram/boxplot.
- Шум + сигнал. Любая измеренная цифра = истина + шум. CI и p-value — про разделение шума и сигнала.
- Гипотеза наоборот. Не «доказываем гипотезу», а «отвергаем нулевую». «Не отвергли» — это не «гипотеза неверна», это «доказательств недостаточно».
- P-value — это не то, что вы думаете. P-value = «вероятность таких данных при условии H0». НЕ вероятность гипотезы, НЕ сила эффекта, НЕ вероятность повторения.
- Frequentist CI. 95% CI = «при повторении эксперимента 1000 раз в 950 интервалах будет истина». Это про процедуру, не про конкретный интервал.
- Simpson: агрегация скрывает структуру. Тренд в каждой подгруппе исчезает или меняется на противоположный при агрегации. Прежде чем делать вывод — смотри сегменты.
- Effect size > p-value. P-value говорит «шум или нет». Effect size говорит «важно ли это». Из всех чисел отчёта — самое важное именно effect size.
- 17.1Mean, median, mode: три ответа на «среднее»
- 17.2Std, IQR, percentiles: измеряем разброс
- 17.3Histogram, boxplot, ECDF: смотрим на форму
- 17.4Outliers: что с ними делать
- 18.1Population vs sample: что мы вообще измеряем
- 18.2Variance в выборке: standard error и доверительный интервал
- 18.3Bootstrap-симуляция: CI на пальцах
- 18.4Sample size calculation (интуитивно)
- 19.1Гипотеза работает наоборот: H0 и H1
- 19.2P-value за 5 минут (без мистики)
- 19.3A/B-тест: дизайн, метрики, MDE
- 19.4Effect size: что важнее p-value
- 20.1P-hacking, HARKing, cherry-picking
- 20.2Multiple testing problem и поправки
- 20.3Simpson's paradox и confounders
- 20.4Когда A/B-тест нельзя проводить
2–3-страничный PDF-отчёт по разбору одного из 5 заранее подготовленных A/B-тестов. Структура: контекст → гипотеза → дизайн → анализ → ограничения → рекомендация бизнесу.
Python для анализа + горизонт инструментов + капстон
Освоить Python и pandas как «новый SQL». Получить горизонт инструментов после pandas: Polars, DuckDB, PySpark на уровне обзора и сравнения. Капстон — синтез всего трека: SQL → pandas → визуализация → статистика → отчёт → защита.
- Python-базис: variables, lists, dicts, functions
- Jupyter: cells, markdown, kernel, Restart & Run All
- pandas DataFrame = SQL-таблица (мост от модуля 3)
- Selection: .loc / .iloc, boolean indexing, .query()
- Transform: .assign, .rename, .astype, .to_datetime
- Group: .groupby, .agg, .transform, .pivot_table
- Merge: .merge с правильным выбором how
- Strings: .str.lower / .str.contains / .str.extract
- Dates: pd.to_datetime, .dt.year/.month/.dayofweek
- Векторизация vs циклы
- matplotlib + seaborn: 7 базовых графиков
- scipy.stats: ttest_ind, bootstrap, описательная статистика
- Воспроизводимость: random seed, requirements.txt, paths
- Polars: lazy/eager, .lazy(), .collect(), expressions API
- DuckDB: SQL поверх Parquet/CSV без warehouse
- PySpark обзорно: DataFrame API, .show() vs .collect(), идея кластера
- Карта инструментов: когда pandas / Polars / DuckDB / PySpark
- DataFrame = SQL-таблица. Все ключевые операции SQL имеют прямой эквивалент в pandas. Учим через мост.
- Векторизация vs итерация. На 100к строк цикл = 30 сек, векторизация = 0,1 сек. Это другой способ мыслить.
- Notebook как нарратив. Скрипт = команды для машины. Notebook = рассказ для человека. Markdown между ячейками обязателен.
- Pure transformation. Каждая ячейка — один input, один output. df_raw → df_clean → df_filtered → df_final.
- Воспроизводимость. Random seed + requirements + relative paths + Restart & Run All. Капстон должен запускаться у любого.
- Карта инструментов после pandas. Сначала задача и объём данных, потом инструмент. До 100МБ — pandas. До 50ГБ — Polars. SQL поверх файлов — DuckDB. 500ГБ+ или промышленный ETL — PySpark. «Я хочу взять Spark» — неправильный старт.
- 21.1Python для data analyst за 10 минут
- 21.2Jupyter notebook: code, markdown, нарратив
- 21.3DataFrame = SQL-таблица: первый pandas
- 21.4SELECT и WHERE в pandas
- 22.1groupby — главный инструмент
- 22.2merge — JOIN в pandas
- 22.3Очистка: NaN, дубликаты, типы
- 22.4Векторизация: почему pandas в 100 раз быстрее циклов
- 23.1Описательная статистика в pandas (мост от модуля 5)
- 23.2seaborn за 10 минут: 7 графиков
- 23.3Bootstrap CI и t-test в коде
- 23.4Финальные графики: from seaborn to publication
- 24.1Когда pandas заканчивается: 4 признака и 3 пути
- 24.2Polars: pandas на стероидах
- 24.3DuckDB: SQL прямо по Parquet
- 24.4PySpark в облаке: концепция кластера за 10 минут
- 24.5Сравнение четырёх движков на одном датасете
- 25.1Структура капстон-репо: anatomy эталона
- 25.2README как product page
- 25.3Защита капстона: 5-минутное голосовое видео
- 25.4Резюме под junior-вакансию
GitHub-репо по эталонной структуре: 4 notebook-а (EDA / cleaning / analysis / visualisation), SQL-extract, figures, finальный отчёт PDF, requirements.txt. + 5-минутное YouTube unlisted видео-разбор. + резюме под 3 junior-вакансии.
26 недель · что и когда ты делаешь
Расписан каждый блок трека: чем занимаешься в каждой неделе и какой артефакт получишь на выходе. План адаптивный — можно идти быстрее, минимум 2 недели на модуль.
- 5 видео по 4–7 минут: что такое DA, день из жизни, типы аналитиков, карта трека
- 3 self-assessment блока: готовность · тип аналитика · 6-месячная цель
- Личный манифест на 200–300 слов или 60 секунд голосом — commitment device
- Неделя 1: SMART-вопрос к данным, корреляция vs причинность
- Неделя 2: tidy data, типы, даты в ISO, дубликаты и пропуски
- Неделя 3: XLOOKUP, SUMIFS, IF/IFS, динамические массивы
- Неделя 4: сводные таблицы, Power Query, первый честный график
- Неделя 5: SELECT, WHERE, ORDER BY, LIMIT, DISTINCT
- Неделя 6: WHERE-логика, IN/BETWEEN/LIKE, NULL-логика
- Неделя 7: COUNT/SUM/AVG, GROUP BY, HAVING
- Неделя 8: INNER и LEFT JOIN, цепочки JOIN-ов, дата-функции
- Неделя 9: CTE и подзапросы, EXISTS vs IN
- Неделя 10: оконные функции — ROW_NUMBER, LAG/LEAD
- Неделя 11: SUM OVER, top-N per group, CASE WHEN
- Неделя 12: NULL/COALESCE/NULLIF, чистка строк, артефакт
- Неделя 13: принципы Tufte, выбор типа графика, манипуляции
- Неделя 14: Looker Studio — первый дашборд от подключения до публикации
- Неделя 15: расчётные поля, цвет, visual hierarchy, гештальт
- Неделя 16: storytelling, mobile-проверка, Power BI обзор, артефакт
- Неделя 17: распределения, mean/median/mode, outliers
- Неделя 18: sampling, CI через bootstrap, sample size
- Неделя 19: гипотезы, p-value, A/B-тест, effect size
- Неделя 20: антипаттерны (p-hacking, Simpson, multiple testing), артефакт
- Неделя 21: Python-базис, Jupyter, pandas как «новый SQL»
- Неделя 22: groupby, merge, очистка, векторизация
- Неделя 23: EDA, seaborn, bootstrap и t-test в коде
- Неделя 24: когда pandas заканчивается — Polars, DuckDB, PySpark в облаке
- Неделя 25: капстон-неделя — финализация репозитория, видео, разбор с экспертом (Pro)
Шесть публичных кейсов и капстон в портфолио
Каждый артефакт — публикуется под именем участника на GitHub или Looker Studio. Это не учебные работы внутри платформы — это реальные ссылки, с которыми идёшь на собеседования.
1-страничный отчёт в Excel/Sheets + 1-минутное голосовое видео. Структура: бизнес-контекст → 3 SMART-вопроса → ответы со сводными/графиками → вывод и рекомендация.
Подборка из 20 запросов разной сложности (от базовых до сцепок), опубликованная в GitHub Gist с README по каждому: бизнес-вопрос → запрос → цифра-ответ → интерпретация.
10 бизнес-вопросов, каждый — одним запросом с CTE и/или окнами. Когортный retention, conversion funnel, top-N per group, RFM, MoM-рост, дедупликация по чистке. Публикуется в публичном GitHub-репозитории.
1-страничный дашборд с главным KPI + 4–5 визуализаций + 2–4 фильтра, опубликованный по public-ссылке. README с разделом «Решения по дизайну».
2–3-страничный PDF-отчёт по разбору одного из 5 заранее подготовленных A/B-тестов. Структура: контекст → гипотеза → дизайн → анализ → ограничения → рекомендация бизнесу.
GitHub-репо по эталонной структуре: 4 notebook-а (EDA / cleaning / analysis / visualisation), SQL-extract, figures, finальный отчёт PDF, requirements.txt. + 5-минутное YouTube unlisted видео-разбор. + резюме под 3 junior-вакансии.
Бесплатный модуль 1 — без регистрации в кошелёк
Месяц до Модуля 2 — бесплатно. Решаешь, идти дальше — оформляешь Basic 1 490 ₽/мес или Pro 2 990 ₽/мес.
Программа «Данные: мышление и инструменты» — информационно-консультационные услуги по доступу к материалам Платформы «Вектор». Не является образовательной программой по 273-ФЗ. Сертификат участника, выдаваемый по итогам, не является документом об образовании или о квалификации. Темп и результат зависят от участника. Трудоустройство и размер заработной платы не гарантируются.