Видеоподкаст

DANO – больше, чем олимпиада. Наша задача не в том, чтобы проверить твои знания по школьным предметам, а в том, чтобы научить тебя анализу данных. Мы приготовили для тебя видеоподкасты, в которых наши коллеги из мира Data Science рассказывают и показывают, как проводить исследования данных.

Больше материалов в Telegram

1. С чего начинается исследование?

Как сформулировать исследовательский вопрос, гипотезу, как выявить причинно-следственный механизм и как понять, какие переменные и метрики необходимы?

2. Единица наблюдения. Выборка. Генеральная совокупность

Как определить единицу наблюдения, измерить различные характеристики объектов? Почему необходимо включать в анализ социально-демографические характеристики? И какие наиболее популярные методы формирования выборок?

3. Типы данных и переменных

Какие бывают недостатки у разных типов данных и как с ними быть? Какие есть типы переменных? Знакомимся с категориальными переменными.

4. Описательная статистика

В каких случаях используется каждый вид меры среднего? Что такое “вариация” и какими мерами ее можно измерить? Что такое «Ящик с усами»?

5. Начинаем исследование

Что такое потоки и запасы? Как исследовать динамические процессы? Обсуждаем вопросы соответствия данных, полученных из разных источников или в разные моменты времени, затрагиваем вопрос об агрегировании показателей по времени и корректности работы с ними.

Как поставить исследовательский вопрос?

 

С чего начинается исследование? С исследовательского вопроса. В этом видеоподкасте говорим о том, как его правильно сформулировать, чтобы узнать новое о мире.

 

Как сформулировать гипотезу?

 

Гипотеза — это связующее звено между теорией и исследовательским вопросом. Гипотеза позволяет проверить, что представление о том, как устроен мир, верно. В этом видео обсуждаем, как сформулировать гипотезу, которая не только логично следует из теории, но и хорошо работает в исследовании.

 

Как выявить причинно-следственный механизм?

 

Механизм — это объяснение, почему переменные связаны. На нескольких примерах объясняем, почему понимание механизма важно, даже если есть уверенность в обнаруженной зависимости. Разбираем, как механизм связан с теорией и гипотезой и как представление о механизме помогает принимать практические решения.

 

Что такое предикторы и как их подобрать?

 

Еще раз говорим про гипотезу и механизм. Объясняем, почему без их детального анализа невозможно понять, какие переменные необходимы для исследования. Разбираемся на конкретном примере с тем, как их подобрать.

 

Как выбирать метрики?

 

Рассказываем о том, как люди, использующие аппарат статистики, воспринимают происходящие вокруг события. Говорим про элемент случайности во всем на свете и о том, как подходить к исследованию неизмеримых характеристик, например, социальных.

 

Что такое единицы наблюдения?

 

Что такое единица наблюдения и почему её определение критично для проведения исследования? Как в зависимости от формулировки исследовательского вопроса и уровня агрегации данных будет меняться единица наблюдения? А еще показываем примеры исследовательских вопросов, для каждого из которых определены единицы наблюдения.

 

Как используются единицы измерения?

 

Как измерить различные характеристики объектов, чтобы провести качественное исследование? В чем разница между абсолютными и относительными показателями? Как сопоставлять количественные характеристики, измеренные в разных шкалах? Почему не все количественные показатели подходят для сравнения объектов наблюдения друг с другом? В конце лекции разбираем несколько исследований с количественными переменными.

 

Какую роль играют социально-демографические показатели?

 

В работе с данными об отдельных людям в анализе важно учитывать их социально-демографические характеристики. Рассказываем, почему необходимо включать в анализ возраст, пол, семейное положение, образование и доход даже в ситуации, когда они не интересны с точки зрения исследовательского вопроса.

 

Что такое генеральная совокупность и какие методы формирования выборок существуют?

 

В данном видео рассказывается о двух важных для анализа данных понятиях: генеральная совокупность и выборка. Подробно описываются наиболее популярные методы формирования выборок. На коротких примерах демонстрируется их применимость.

 

Какие типы данных существуют?

 

В этом видеоподкасте говорим о типах данных, обсуждаем особенности временного ряда и перекрестной выборки. Рассуждаем, какие у этих типов данных есть недостатки, с точки зрения анализа и прогноза. Рассказываем, как панельный вид данных позволяет избавится от этих проблем. Все разбираем на примерах. Бонус: ссылка на мониторинг социально-экономического положения и состояния здоровья населения Российской Федерации для самостоятельного изучения.

 

Какие есть типы переменных?

 

В этом видеоподкасте говорим о том, какого типа информация может быть доступна, какие бывают переменные при обработке данных и как это может влиять на операции, совершаемые с данными. Рассказываем, что переменные разделяются не только на количественные и качественные, но и по тому, в каких шкалах они измеряются, какие признаки требуют дискретной шкалы, а какие — непрерывной, и как количественную переменную преобразовать в качественную.

 

Что такое категориальные переменные и кодировка данных?

 

Знакомимся с категориальными переменными — такие переменные принимают значения из некоторого ограниченного набора значений. Процесс определения и выбора этого набора называется кодировкой. Разбираем, какие бывают категории, можно ли вместо характеризующих качеств, как, например, “низкий”, “средний” и “высокий”, использовать числовые значения, и в чем польза таких переменных в анализе данных.

 

Какие показатели центра распределения существуют?

 

Центр распределения можно охарактеризовать разными видами среднего. Рассказываем, в каких случаях используется каждый вид меры среднего, показываем на содержательном примере особенности их применения и ограничения применимости.

Скачать презентацию

Какими бывают показатели вариации распределения?

 

Рассказываем, что такое “вариация” и какими мерами ее можно измерить. Вводим понятие “меры вариации” и подробно рассматриваем основные цели её использования. Для каждой введенной меры вариации показываем содержательный пример и особенности применимости.

Скачать презентацию

Что такое «Ящик с усами»?

 

В этом видео-подкасте знакомимся с диаграммой размаха (или как ее называют на своем сленге аналитики —“ящик с усами”) — универсальным графиком представления информации для первичного знакомства с практически любыми данными. Разбираем составляющие этого графика, такие как медиана, межквартильный размах, нижний и верхний квартили, длина усов. Учимся рассчитывать эти показатели, самостоятельно строить график, а затем интерпретировать полученный результат. Рассказываем, какую роль могут сыграть “выбросы” — точки данных за пределами ящика с усами. Обсуждаем виды графиков, а также учимся сравнивать выборки между собой с помощью данного инструмента.

 

Как применять линейную регрессию?

 

Знакомим с простым, но мощным методом — линейной регрессией, одной из базовых моделей анализа причинно-следственных взаимосвязей. В видео рассказываем, как строится такая модель и как интерпретировать результаты, получаемые с ее помощью.

 

Что такое потоки и запасы?

 

Видео посвящено описанию классификации экономических показателей на потоки и запасы в зависимости от особенностей их изменения во времени. Вводим ключевые понятия, описываем основные свойства показателей каждого типа и их формальную связь между ними.

Скачать задания

 

Как рассчитывать временные индексы?

 

Как исследовать динамические процессы? Как сравнивать между собой значения показателей, разнесенных во времени? Как сопоставлять в одном ряду данные, полученные с помощью разных методик? Рассказываем об одном из самых часто используемых инструментов для анализа временных рядов – цепных и базисных индексах. Объясняем понятие индекса и другие необходимые определения, показываем основные подходы для расчета индексов и их связи между собой.

 

Как сопоставлять базы данных?

 

В видео обсуждаем вопросы соответствия данных, полученных из разных источников или в разные моменты времени. На конкретных примерах показываем, как и почему могут возникать различия в анализируемых показателях, и почему далеко не всегда можно согласовать эту информацию.

К данной лекции практические задания не предусмотрены.

 

Что такое агрегирование?

 

Видео посвящено связи экономических показателей разных уровней и переходу от характеристик конкретных экономических агентов (потребителей, фирм, банков) к более общим показателям, характеризующим отдельные отрасли, регионы или экономику в целом. Кроме того, затрагиваем вопрос об агрегировании показателей по времени и корректности работы с ними.

К данной лекции практические задания не предусмотрены.