Задачи для тренировки

В этом разделе мы собрали задачи, которые помогут лучше разобраться в анализе данных. Все задачи мы сначала публикуем в нашем телеграм-канале, а затем размещаем на сайте в библиотеке материалов.

Задача №1

Как грамотный исследователь, ты знаешь, что высокая степень корреляции между величинами не обязательно означает наличие причинно-следственной связи между ними. Найти большой каталог таких корреляций можно на сайте tylervigen.com.

Например, на графике выше видно, что динамика количества запущенных на некоммерческой основе космических кораблей и динамика количества докторских званий в области социологии в США похожи между собой.

Вопрос 1. 
Какое НЕВЕРНОЕ объяснение можно было бы предложить для «‌‎обоснования» этой связи? 
Объясни, почему это обоснование неверно. 

Но иногда за абсурдными корреляциями скрывается вполне разумный причинно-следственный механизм. 

Вопрос 2. 
Опиши этот механизм для следующих случаев:
1. корреляция между объемом потребления мороженого и числом смертей от утопления;
2. корреляция между объемом потребления мясных деликатесов и уровнем образования конкретного человека.

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №2

Ученик Х боялся, что родители накажут его за низкий по их стандартам балл за тест. Чтобы избежать наказания, ученик нарисовал диаграмму баллов его и его друзей, которую и покажет родителям. Родители быстро посмотрят на картинку, не будут вдаваться в детали, а значит их будет легко обмануть:

Кто является учеником X? Опиши механизм, примененный им для искажения информации.

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №3

В конце учебного года тот же ученик X посмотрел на средний балл (по четвертям) в сравнении со своими друзьями, представив информацию в виде следующей таблицы:


Юный манипулятор данными X посчитал, что такая таблица невыгодно отличает его среди друзей. Немного подумав, X построил новый график на основе данных той же таблицы:

Попробуйте угадать, как был получен данный график?

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №4

Перед тобой четыре гистограммы, отражающие распределения данных из четырех выборок (все выборки весьма объемны и репрезентативны):


а) Выборка задержек вылетов (в часах) в аэропорту города N;
б) Выборка из показателей веса (в кг) учеников 11-ых классов школы №1 города N;
в) Выборка результатов 100 бросков одного игрального кубика;
г) Выборка результатов забегов на дистанции в 100 метров (в секундах) спортсмена Усэйна Б. во время его летних тренировок.

На всех графиках по оси абсцисс откладывались значения (интервалы значений) из соответствующих выборок, по оси ординат — их частота.

Установи, к какой выборке относится каждый график. Аргументируй свой ответ.

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №5

Перед тобой распределение показателей веса выборки взрослых людей различных возрастов:

Давай представим аналогичную диаграмму для показателей веса новорожденных. 
Как будет выглядеть распределение в данном случае?
Чем будут отличаться диаграммы?

Опиши максимально подробно и обоснуй свой ответ.

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №6

Вася работает в Министерстве Здорового Образа Жизни, которое обеспечивает население страны фитнес-трекерами. Чтобы стимулировать людей заниматься спортом, в магазинах существует система скидок: чем больше человек двигается, тем выше скидка. 

Юный экономист Иннокентий решил подзаработать: за небольшое вознаграждение он собирает браслеты своих соседей, надевает их на руку и идёт гулять по лесу. Таким образом, все соседи получают максимальные скидки в магазинах. Данные с шагомеров поступают в Министерство каждый час, при этом про каждого человека есть все персональные данные (паспортные данные, место жительства, информация из социальных сетей и так далее).

Помоги Васе придумать систему для автоматического обнаружения мошенничества Иннокентия. 

Помоги Иннокентию обойти придуманную тобой для Васи систему. Опиши недостатки предложенной схемы обхода.

Учти, что, с одной стороны, шагомеры очень качественные и обмануть их, надев браслет на что-то другое (робота, животное и так далее) нельзя. С другой стороны, из-за дороговизны серверов, единственные данные, доступные Министерству — это сколько шагов отходил каждый человек в каждый час.

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №7

После теста Юля очень хочет узнать, какое место в группе она занимает по набранному баллу (первое место имеет наибольший балл, последнее — наименьший, соответственно).

Всего в группе 5 человек. Оценка за тест может быть лишь целым числом от 0 до 5. Учитель пока не хочет оглашать оценки, но подсказал Юле, что ее балл выше медианного на 2, а мода распределения оценок равна 3. 

Если два ученика набирают одинаковое количество баллов, то они оба занимают одинаковую позицию в рейтинге (например, если все пятеро наберут 5 баллов, то будет пять первых мест). 

Какое(-ие) место(-а) может занимать Юля в рейтинге оценок за тест?

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №8

Прибыльные прогнозисты

Перед тобой диаграмма, показывающая прибыли компании по производству зерна «Петушкококо» за года с 2016 по 2020.

По оценкам экспертов Кости и Саши годовой темп прироста прибыли в 2021 году будет равен среднему арифметическому годовых темпов прироста за указанные выше года. Какую в таком случае прибыль стоит ожидать в 2021 году (ответ округли к ближайшему целому числу)?

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №9

Предлагаем поработать над пониманием структуры данных и нетривиальным форматированием, существующих наблюдений для получения итоговых ответов.

Представь, что у тебя есть компания, занимающаяся краткосрочной арендой велосипедов. Ты набрали данные по статистике использования этих велосипедов и теперь хочешь проанализировать закономерности: когда велосипедов нужно больше, когда меньше. Например, компания планирует техосмотр и нужно понять, когда ты можешь безболезненно убрать часть велосипедов с улиц.

Для работы мы предлагаем датасет с информацией об аренде велосипедов в Лондоне в 2015-2017. Исходный датасет содержал в себе столбец с датами в формате POSIXct (формат времени с точностью до секунды). Но мы упростили работу, выделив год, месяц и день в отдельных столбцах: «year», «month» и «day».

Другие обозначения:

  • cnt — число арендованных велосипедов в этот час;
  • t1 — фактическая температура;
  • t2 — температура «ощущается как»;
  • hum — влажность;
  • wind_speed — скорость ветра km/h;
  • weather_code — код типа погоды;
  • is_holiday — праздник или нет (1-0).

Кстати, напомним, что файлы типа *.csv — это формат comma separated values (т.е значения одной переменной отделяются от значений другой переменной запятой), и его открывает обычный Microsoft Excel.

ЗАДАНИЕ:

  • Посчитать количество праздничных дней в каждом году;
  • Найти небольшую аномалию/выбросы в полученных результатах и убрать ненужные данные (обратите внимание на количество наблюдений в каждом из представленных годов);
  • Указать, правда ли, что в праздники арендуют больше, чем в обычные дни?

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №10

Руководитель корпорации Z попросил штатного аналитика провести исследование активности сотрудников в социальных сетях в течение рабочего дня. Выяснилось, что большинство сотрудников проводит в соцсетях хотя бы четверть рабочей смены, что стало основанием для введения системы штрафов.

Мощности корпорации по мониторингу социальных сетей сотрудников ограничены: провести тест на активность в интернете для каждого сотрудника можно только один раз в день.

Аналитик предложил проводить тесты на активность стандартными статистическими методами, однако руководитель настоял на другой системе. А именно: проводить тесты всех сотрудников в одно время — пик активности, выявленный посредством исследования. За каждый положительный тест на активность сотрудник сразу получает оповещение о денежном штрафе.

Через месяц использования системы число штрафов в день практически достигло нуля, однако повторное исследование показало, что количество часов активности в соцсетях не изменилось. Поясни, почему был получен такой результат.

Как нужно изменить систему, чтобы она работала эффективно (снижала реальную активность в соцсетях, а не номинальную, то есть число штрафов)?

В каких целях руководитель мог настоять на использовании заведомо неэффективной системы?

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №11

Давайте рассмотрим актуальную на сегодняшний день статистику заболеваемости Сovid-19 в странах ЕС/ЕАС. Представьте, что вы начали планировать свое путешествие по Европе, но ваша заинтересованность о распространенности вируса сподвигла вас на мысль об исследовании актуальных данных о распространении и опасности этого вируса в странах ЕС. Таким образом, вы поставили себе задачу ответить на несколько вопросов. 

В файле joined_data.csv содержатся данные по распространению covid-19 в странах ЕС. Каждая строка — это данные за день о количествах заражений и летальных исходов в определенной стране.

Переменные:

  • dateRep — дата наблюдения;
  • country_name — название страны;
  • cases — количество случаев заражений в указанную дату в стране из колонки country_name;
  • deaths — количество летальных исходов в указанный день в стране из колонки country_name;
  • Land.area..sq..km. — территория страны в кв.км.


Но есть ещё две таблицы: data.csv и land-area-km.csv, которые являются основой таблицы, с которой вы будете работать. Способ получения данных прямо с вебсайта и предобработку данных мы покажем вам в разборе решения, но мы не ожидаем от вас дополнительных действий, и объединенные данные уже свели за вас в файл joined_data.csv.

Кстати, напомним, что файлы типа *.csv — это формат comma separated variables (т.е значения одной переменной отделяются от значений другой переменной запятой), и его открывает обычный Microsoft Excel.

Разведочный анализ данных (разминка)

  • Определить топ-5 стран по абсолютной и относительной смертностям и сравнить результаты;
  • Определить топ-5 стран по средним показателям абсолютной смертности;
  • Определить день с максимальными количествами зарегистрированных заражений и летальных исходов и сравнить полученные результаты.

Мини-исследование:

Определить самую безопасную/опасную страну для поездки в коронавирусные выходные. В данном задании предполагается придумать свой способ определения таких стран.

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №12

Самый масштабный финансовый пузырь 21 века, вызов банковской системе, хулиганство и шутка над экономистами… Вы, конечно же, догадались, что сегодня мы поговорим о биткоине, а точнее – о графическом представлении его курса.

На первой картинке вы видите график, который сложно не узнать – динамика цены биткоина в долларах США. На второй картинке… тот же график! Но с ним были проведены некоторые манипуляции (какие, мы, разумеется не скажем, а попросим вас угадать самостоятельно).

Задача №13

Если ты играл в шахматы, то наверняка задумывался о том, чтобы выучить пару-тройку игровых комбинаций. Предлагаем посмотреть на них с точки зрения анализа данных. 

Сегодня мы предлагаем проанализировать датасет из 20058 наблюдений с сайта lichess.org. Датасет доступен на платформе kaggle.com.

А еще мы сохранили его здесь.

Структура датасета: 
Каждая строка — это данные наблюдения за игрой.

id — идентификатор игры;
rated — оцениваемая игра или нет;
created_at — время начала игры;
last_move_at — время последнего хода;
turns — количество ходов;
victory_status — статус игры;
winner — победитель (Ч/Б);
white_id — идентификатор игрока, играющего белыми;
white_rating — рейтинг игрока (Б);
black_id — идентификатор игрока, играющего черными;
black_rating — рейтинг игрока (Ч);
moves — ходы в стандартных шахматных обозначениях;
opening_eco — стандартный код для каждого типа дебюта;
opening_name — название дебюта;
opening_ply — количество ходов на дебютных этапах;

В этот раз мы решили немного оттолкнуться от привычного формата ответов на формальные вопросы. Тебе предстоит ответить на актуальный исследовательский вопрос:  с чего стоит начинать игру типичному игроку в равной (c сопоставимыми рейтингами) игре?

Чтобы решать исследовательский вопрос было проще, а работа шла плавно, выполни эти пункты: 
Очисть данные от тех наблюдений, где рейтинги отличаются более чем на 100 единиц.
Для извлечения базовых стратегий из столбца (opening_name) извлекай то, что до двоеточия.

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №14

С момента начала пандемии COVID-19 мы ежедневно видим статистику заболеваемости, графики распространения вируса. Из-за их количества, отличить качественный график от некачественного становится всё сложнее. 

Поэтому мы хотим предложить тебе потренироваться этом навыке прямо сейчас. Ниже приведены примеры двух графиков, описывающих одни и те же показатели. Какой из них наиболее удачный и почему? Почему другой НЕудачный?

А на этих графиках?

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №15

Что такое список S&P 500?
Это перечень акций, которые покупаются и продаются на крупнейших американских фондовых биржах. Значение индекса S&P 500 отражает их суммарную капитализацию.

Индекс S&P 500 конкурирует по популярности с Промышленным индексом Доу Джонса и заслуженно называется барометром американской экономики.

Список предприятий, входящих в S&P 500 — не то же самое, что и список крупнейших компаний США, так как в него не попадают компании, находящиеся в частном владении, и компании, акции которых обладают недостаточной ликвидностью.

Крупнейшие экономические кризисы могут отражаться на графике данного индекса, что является интересной областью исследований.

Ниже предложен список с соответствующими датами самых значительных обвалов, но поиск их названий будет первым пунктом этого задания :)

 

Задание:  

  • Найди все значительные обвалы индекса (stock market crashes) за последние 100 лет из таблицы выше.
  • Определи отражение этих обвалов на соответствующем графике S&P 500 указав пиковые и минимальные значения индекса.
  • Определи темпы роста данного индекса на промежутках спадов до минимальных показателей в соответствующих периодах.
  • Выдели самый значительный спад (в процентном выражении) данного индекса и интерпретируй результаты исходя из экономической интуиции (можно почитать статьи на различных сайтах).

 

Описание данных:

Для решения этого задания мы подготовили для вас датасет с котировками индекса S&P 500, начиная с последних дней 1927 года и до конца 2020. Датасет содержит более 23000 наблюдений, где каждая строка соответствует повседневной информации о соответствующем индексе

Давайте рассмотрим переменные: 
Date — дата 
Open — значение индекса в начале дня 
High — самое высокое значение за день
Low — самое низкое значение за день
Close/Adj Close — значение индекса в конце дня 
Volume — объем торгов 

Подсказка: Тебе нужны только два столбца — Date и Volume

Полезные источники: (Highly Recommended)
TradingView для просмотра графиков 
Очень полезный источник  с информацией о базах данных, где первый раздел посвящен финансам

Чтобы узнать ответ, нажми на значок со стрелкой рядом с номером задачи.

Задача №16

Задача на  реальных данных

Твой начальник весьма обеспокоен клиентской базой. Он хочет узнать, где проживает больше всего человек в стране и где тенденция к росту будет усиливаться, а где уменьшаться. Для этого он предлагает тебе проанализировать имеющиеся у него данные.

Ты как аналитик хочешь сразу посмотреть тенденцию по известным годам. Для этого ты создал график рассеяния. Что ты можешь сказать о нем? Почему представленные данные нельзя проанализировать вместе? Что нам может помешать? (1)

Твой начальник также просит предсказать рост населения Москвы, ведь Москва — крупный город, непохожий ни на один другой. Нужно помочь начальнику узнать как много продукции ему стоит поставить в этот город в будущем.

Для этого ты как аналитик провел всевозможные тесты и составил регрессионною-предсказательную модель:

Она определяется как: Fact=-1343638.4+730.3*YEAR

Скажи, какая численность будет в Москве в 2065 году, согласно этой модели?  Насколько  корректно  делать  такой прогноз?

Твоему начальнику все еще интересны другие города. Ты как исследователь хочешь распределить их для простоты визуализации по уровням: низший, средний и высокий, согласно численности населения в 2010 году. Только как? Как найти такие значения, чтобы все данные были равномерно распределены? Предложи свои варианты.

Допустим,  ты разделил города согласно требованиям, вот так:

Определи, значит ли это, что мы можем применить регрессионный анализ отдельно к каждому из этих городов? Будут ли такие модели «несмещенными»? Сможем ли мы говорить о верности нашего анализа , если будем оценивать эти три модели по отдельности? (3)

Ответ еще не опубликован.