Задачи для тренировки

Изучаем статистику

Учимся строить и читать графики

Практикуемся на реальных данных

Учимся делать корректные выводы

Изучаем статистику

Задача 1

Ответ 1

Задача 2

Ответ 2

Задача 3

Ответ 3

Учимся строить и читать графики

Задача 4

Ответ 4

Задача 5

Ответ 5

Чтобы решить задачу №5, нужно представить, какие значения, с каким разбросом и частотой в каждом случае (а-б) можно встретить.
Начнём с простого. Каждая грань игрального кубика при одном броске выпадает равновероятно.
Значит, частоты выпадения шести различных значений при 100 бросках должны быть примерно одинаковы («единица» выпадала столько же раз, сколько и «двойка», «тройка»…). Такой выборке соответствует график под номером 1, все столбцы которого примерно одинаковой высоты.
График №2 соответствует выборке из показателей веса учеников одиннадцатых классов. Учеников можно разбить на две группы: парни и девушки (группы получатся приблизительно одинаковыми по числу учеников). Распределение веса девушек отличается от распределения веса парней: девушки легче в среднем, потому как ниже ростом, у них меньше мышечной массы и более тонкие кости. При совмещении двух выборок, совместное распределение веса становится «двугорбым», бимодальным, что и показано на графике 2.
Задержки авиарейсов происходят редко, чаще самолеты вылетают по расписанию или с минимальным опозданием, поэтому выборке с задержками вылетов вполне может соответствовать график 3, где наибольшая частота соответствует вылету без опозданий.
По остаточному принципу получается, что четвертый график соответствует времени забегов Усэйна Б.
До этого можно было дойти путем следующих логических рассуждений: время забегов является величиной случайной, при каждой отдельной попытке спортсмен может установить свой личный рекорд или, к сожалению, провалится и показать слабый результат. Тем не менее, при совершении большого количества попыток время большого числа забегов будет распределено нормально и будет колебаться вокруг какого-то прогнозируемого значения.

Задача 6

Ответ 6

Задача 7

Ответ 7

Задача 8

Ответ 8

Практикуемся на реальных данных

Задача 9

Предлагаем поработать над пониманием структуры данных и нетривиальным форматированием, существующих наблюдений для получения итоговых ответов.

Представь, что у тебя есть компания, занимающаяся краткосрочной арендой велосипедов. Ты набрали данные по статистике использования этих велосипедов и теперь хочешь проанализировать закономерности: когда велосипедов нужно больше, когда меньше. Например, компания планирует техосмотр и нужно понять, когда ты можешь безболезненно убрать часть велосипедов с улиц.

Для работы мы предлагаем датасет с информацией об аренде велосипедов в Лондоне в 2015-2017. Исходный датасет содержал в себе столбец с датами в формате POSIXct (формат времени с точностью до секунды). Но мы упростили работу, выделив год, месяц и день в отдельных столбцах: «year», «month» и «day».

Другие обозначения:

cnt — число арендованных велосипедов в этот час;
t1 — фактическая температура;
t2 — температура «ощущается как»;
hum — влажность;
wind_speed — скорость ветра km/h;
weather_code — код типа погоды;
is_holiday — праздник или нет (1-0).

Кстати, напомним, что файлы типа *.csv — это формат comma separated values (т.е значения одной переменной отделяются от значений другой переменной запятой), и его открывает обычный Microsoft Excel.

Задание:

Посчитать количество праздничных дней в каждом году;
Найти небольшую аномалию/выбросы в полученных результатах и убрать ненужные данные (обратите внимание на количество наблюдений в каждом из представленных годов);
Указать, правда ли, что в праздники арендуют больше, чем в обычные дни?

Ответ 9

Задача 10

Давайте рассмотрим актуальную на сегодняшний день статистику заболеваемости Сovid-19 в странах ЕС/ЕАС. Представьте, что вы начали планировать свое путешествие по Европе, но ваша заинтересованность о распространенности вируса сподвигла вас на мысль об исследовании актуальных данных о распространении и опасности этого вируса в странах ЕС. Таким образом, вы поставили себе задачу ответить на несколько вопросов.

В файле joined_data.csv содержатся данные по распространению covid-19 в странах ЕС. Каждая строка — это данные за день о количествах заражений и летальных исходов в определенной стране.

Переменные:

dateRep — дата наблюдения;
country_name — название страны;
cases — количество случаев заражений в указанную дату в стране из колонки country_name;
deaths — количество летальных исходов в указанный день в стране из колонки country_name;
Land.area..sq..km. — территория страны в кв.км.

Но есть ещё две таблицы: data.csv и land-area-km.csv, которые являются основой таблицы, с которой вы будете работать. Способ получения данных прямо с вебсайта и предобработку данных мы покажем вам в разборе решения, но мы не ожидаем от вас дополнительных действий, и объединенные данные уже свели за вас в файл joined_data.csv.

Кстати, напомним, что файлы типа *.csv — это формат comma separated variables (т.е значения одной переменной отделяются от значений другой переменной запятой), и его открывает обычный Microsoft Excel.

Разведочный анализ данных (разминка):

Определить топ-5 стран по абсолютной и относительной смертностям и сравнить результаты;
Определить топ-5 стран по средним показателям абсолютной смертности;
Определить день с максимальными количествами зарегистрированных заражений и летальных исходов и сравнить полученные результаты.

Мини-исследование:

Определить самую безопасную/опасную страну для поездки в коронавирусные выходные. В данном задании предполагается придумать свой способ определения таких стран.

Ответ 10

Задача 11

Если ты играл в шахматы, то наверняка задумывался о том, чтобы выучить пару-тройку игровых комбинаций. Предлагаем посмотреть на них с точки зрения анализа данных.

Сегодня мы предлагаем проанализировать датасет из 20058 наблюдений с сайта lichess.org. Датасет доступен на платформе kaggle.com

А еще мы сохранили его здесь.

Структура датасета:
Каждая строка — это данные наблюдения за игрой.
id — идентификатор игры;
rated — оцениваемая игра или нет;
created_at — время начала игры;
last_move_at — время последнего хода;
turns — количество ходов;
victory_status — статус игры;
winner — победитель (Ч/Б);
white_id — идентификатор игрока, играющего белыми;
white_rating — рейтинг игрока (Б);
black_id — идентификатор игрока, играющего черными;
black_rating — рейтинг игрока (Ч);
moves — ходы в стандартных шахматных обозначениях;
opening_eco — стандартный код для каждого типа дебюта;
opening_name — название дебюта;
opening_ply — количество ходов на дебютных этапах;

В этот раз мы решили немного оттолкнуться от привычного формата ответов на формальные вопросы. Тебе предстоит ответить на актуальный исследовательский вопрос:

С чего стоит начинать игру типичному игроку в равной (c сопоставимыми рейтингами) игре?

Чтобы решать исследовательский вопрос было проще, а работа шла плавно, выполни эти пункты:

Очисть данные от тех наблюдений, где рейтинги отличаются более чем на 100 единиц.
Для извлечения базовых стратегий из столбца (opening_name) извлекай то, что до двоеточия.

Ответ 11

Задача 12

Что такое список S&P 500?

Это перечень акций, которые покупаются и продаются на крупнейших американских фондовых биржах. Значение индекса S&P 500 отражает их суммарную капитализацию.

Индекс S&P 500 конкурирует по популярности с Промышленным индексом Доу Джонса и заслуженно называется барометром американской экономики.

Список предприятий, входящих в S&P 500 — не то же самое, что и список крупнейших компаний США, так как в него не попадают компании, находящиеся в частном владении, и компании, акции которых обладают недостаточной ликвидностью.

Крупнейшие экономические кризисы могут отражаться на графике данного индекса, что является интересной областью исследований.

Ниже предложен список с соответствующими датами самых значительных обвалов, но поиск их названий будет первым пунктом этого задания :)

Задание:

Найди все значительные обвалы индекса (stock market crashes) за последние 100 лет из таблицы выше.
Определи отражение этих обвалов на соответствующем графике S&P 500 указав пиковые и минимальные значения индекса.
Определи темпы роста данного индекса на промежутках спадов до минимальных показателей в соответствующих периодах.
Выдели самый значительный спад (в процентном выражении) данного индекса и интерпретируй результаты исходя из экономической интуиции (можно почитать статьи на различных сайтах).

Описание данных:

Для решения этого задания мы подготовили для вас датасет с котировками индекса S&P 500, начиная с последних дней 1927 года и до конца 2020. Датасет содержит более 23000 наблюдений, где каждая строка соответствует повседневной информации о соответствующем индексе.

Давайте рассмотрим переменные:

Date — дата
Open — значение индекса в начале дня
High — самое высокое значение за день
Low — самое низкое значение за день
Close/Adj Close — значение индекса в конце дня
Volume — объем торгов
Подсказка: Тебе нужны только два столбца — Date и Volume

Полезные источники: (Highly Recommended)

— TradingView для просмотра графиков

— Очень полезный источник с информацией о базах данных, где первый раздел посвящен финансам

Ответ 12

Учимся делать корректные выводы

Задача 13

Ответ 13

Вопрос 1.

Какое НЕВЕРНОЕ объяснение можно было бы предложить для «‌‎обоснования» этой связи?

Объясни, почему это обоснование неверное.

Ответ может звучать так: запуски космических кораблей — это сложная область, требующая большого научного капитала, потому развитие этой области тесно связано с уровнем развития науки, что в том числе отражается и на числе защищенных докторских диссертаций, не только в данной области, но и в других, в том числе — по социологии.

Но это неверное объяснение, потому что развитие прикладных аспектов (создание космических кораблей нового поколения и их запуски) идёт с отставанием от прорывных научных идей на несколько лет, а то и десятилетий. А научные работы, основанные на опыте реальных запусков, напротив, публикуются сильно позже реальных запусков.

Поэтому на количество научных публикаций, посвященных космическим кораблям надо как минимум смотреть со сдвигом во времени (вперед или назад). Что касается защит по социологии, то они также связаны с осознанием влияния на общество развития космической индустрии, и общество (а с ним и ученые-социологи) либо реагирует на предчувствие будущих изменений в промышленности, либо на свершившиеся факты, что тоже асинхронно с количеством запусков.

Вопрос 2.1:

Опиши механизм корреляции между объемом потребления мороженого и числом смертей от утопления.

Ответ: Количество потребляемого мороженого зависит от сезона (возрастает в тёплое время и снижается в холодное) равно так же, как и возможность купаться в водоемах и бассейнах, что влечёт за собой рост числа смертей от утопления в теплый сезон.

Вопрос 2.2:

Опиши механизм корреляции между объемом потребления мясных деликатесов и уровнем образования конкретного человека.

Ответ: Здесь нужно добавить звено причинно-следственной связи — как правило, уровень образования и уровень дохода находятся в прямой зависимости. А значит, более образованные люди в среднем более богаты, то есть могут позволить себе более дорогую еду и тд.

Задача 14

Вася работает в Министерстве Здорового Образа Жизни, которое обеспечивает население страны фитнес-трекерами. Чтобы стимулировать людей заниматься спортом, в магазинах существует система скидок: чем больше человек двигается, тем выше скидка.

Юный экономист Иннокентий решил подзаработать: за небольшое вознаграждение он собирает браслеты своих соседей, надевает их на руку и идёт гулять по лесу. Таким образом, все соседи получают максимальные скидки в магазинах. Данные с шагомеров поступают в Министерство каждый час, при этом про каждого человека есть все персональные данные (паспортные данные, место жительства, информация из социальных сетей и так далее).

Помоги Васе придумать систему для автоматического обнаружения мошенничества Иннокентия.

Помоги Иннокентию обойти придуманную тобой для Васи систему. Опиши недостатки предложенной схемы обхода.

Учти, что, с одной стороны, шагомеры очень качественные и обмануть их, надев браслет на что-то другое (робота, животное и так далее) нельзя. С другой стороны, из-за дороговизны серверов, единственные данные, доступные Министерству — это сколько шагов отходил каждый человек в каждый час.

Ответ 14

Вернемся к Иннокентию.

Пусть он помогает соседям набрать необходимое количество шагов по указанной в задаче схеме. В таком случае по окончании часа на каждом браслете наберётся одно и то же количество шагов — это и будет основным показателем, на который Васе стоит обращать внимание.

Тем не менее, отслеживать людей, прошедших равное количество шагов за час по всей стране (городу) нерационально, так как это достаточно большая территория с большим количеством людей. А значит, мы можем наткнуться на случайные совпадения показателей, также такой метод потребует огромных мощностей (это будет одним из недостатков системы).

Васе следует поделить людей по месту проживания на небольшие группы (например, квартал, улица, двор) и отслеживать совпадающее число шагов внутри групп.

Также система может приравнивать к мошенникам семьи или группы друзей, которые вместе гуляют по одному маршруту. Васе стоит учесть и этот недостаток, и указать, что система не должна обвинять в мошенничестве родственников.

Иннокентий может обойти такую систему вот так:

Каждый час заново надевать все браслеты поочередно (например, каждые 2 минуты), чтобы количество шагов не повторялось. В течение одной прогулки использовать браслеты только тех, кто попарно является родственников другому владельцу браслета

Задача 15

Руководитель корпорации Z попросил штатного аналитика провести исследование активности сотрудников в социальных сетях в течение рабочего дня. Выяснилось, что большинство сотрудников проводит в соцсетях хотя бы четверть рабочей смены, что стало основанием для введения системы штрафов.

Мощности корпорации по мониторингу социальных сетей сотрудников ограничены: провести тест на активность в интернете для каждого сотрудника можно только один раз в день.

Аналитик предложил проводить тесты на активность стандартными статистическими методами, однако руководитель настоял на другой системе. А именно: проводить тесты всех сотрудников в одно время — пик активности, выявленный посредством исследования. За каждый положительный тест на активность сотрудник сразу получает оповещение о денежном штрафе.

Через месяц использования системы число штрафов в день практически достигло нуля, однако повторное исследование показало, что количество часов активности в соцсетях не изменилось. Поясни, почему был получен такой результат.

Как нужно изменить систему, чтобы она работала эффективно (снижала реальную активность в соцсетях, а не номинальную, то есть число штрафов)?

В каких целях руководитель мог настоять на использовании заведомо неэффективной системы

Ответ 15

Почему был получен такой результат?

Проведение тестирования в одно и то же время и мгновенные оповещения о штрафах позволяют сотрудникам быстро понять, как устроена данная система и обойти её, избегая активности в соцсетях во время проверки. То есть со временем пик активности переместится на другое время рабочего дня и потребуется ещё одно исследование (и так далее).

Наиболее эффективно будет проводить тесты равномерно в течение рабочего дня, при этом тестируемого сотрудника при проведении каждого теста следует выбирать случайным образом. Такой метод практически невозможно обойти (опустим варианты с созданием дополнительных аккаунтов в соцсетях, использования vpn и тд).

Также оповещения о штрафах лучше отправлять в конце рабочего дня или недели, а не по факту нарушения дисциплины (если сотрудник получит штраф, то впоследствии он может сидеть в соцсетях весь оставшийся день безнаказанно, ведь вероятность получения второго штрафа при случайной системе мала).

В каких целях руководитель мог настоять на использовании заведомо неэффективной системы?

Такая система позволяет зафиксировать максимальное количество нарушений за короткое время, в долгосрочной же перспективе данный алгоритм быстро потеряет эффективность. Значит, таким образом можно максимизировать количество штрафов за первое время работы системы, а также создать фальш-статистику по успешной борьбе с активностью в интернете.

К решению задачи можно было прийти, рассмотрев аналогичные кейсы:

1) Учитель проводит самостоятельную работу по заданному на дом материалу в один и тот же день недели для всего класса. Ученики быстро понимают, как работает система, и хорошо учат дз только раз в неделю. В результате «успеваемость», измеренная такой метрикой значительно растёт.Эффективнее давать самостоятельную работу нескольким случайно выбранным ученикам на каждом уроке.

2) ДПС длительное время проверяет скорость автомобилей на одном и том же участке дороги. Водители быстро распространяют информацию об этом между собой и начинают намеренно сбавлять скорость, подъезжая к этому участку/выбирают обходной путь. Опасный участок дороги становится «безопасным». Эффективнее использовать автоматические системы проверки скорости, расположенные равномерно по всему городу.