Базы данных 2022-2023

На третьем (заключительном) этапе олимпиады участники самостоятельно формируют команды, основываясь на интересах по исследованию той или иной базы данных. А познакомиться с базами данных участники могут на данной странице.

Первые пять датасетов предоставлены соорганизатором олимпиады — компанией Тинькофф.

№1 Тинькофф: доставки карт

Все продукты в Тинькофф банке доставляются клиентам через представителей. В последнее время мы реализуем проект по кардинальному изменению зон доставки. Чтоб определить новую зону мы делим карту на гексагоны и оцениваем прибыль и издержки от доставки в каждый гексагон. В итоге где-то мы уменьшаем зону доставки, где-то увеличиваем, где-то меняем режим работы (делаем так, чтоб регион работал реже или наоборот чаще). Сейчас нам нужно узнать как наши изменения повлияли на скорость доставки на утилизацию продукта встречи. 
Вам представлено 2 датасета в первом датасете лежат заявки на доставку в субъектах, в которых мы проводили изменения, во втором – лежат гексагоны и изменения, которые с ними произошли: смена региона и смена режима работы (количество рабочих дней региона в неделю), а также дата изменений.

 

 

№2 Тинькофф: заказы билетов в кино

Вам представлен датасет реальных заказов в Тинькофф Афиша (небольшой сэмпл по пользователям). Каждая строка - это один заказ, сделанный в какой-то день (creation_date) на какой-то день (session_date).

 

 

№3 Тинькофф: кешбэки

Для увеличения лояльности клиентов банка им дается выбор из различных магазинов, где клиент может совершить покупки с кэшбэком. Вам предоставлены данные и транзакционной активности клиентов за 2022г. При это данные поделены на 2 участка: последние 3 месяца и предшествующие им. Так же кэшбэк делится на 2 типа от банки и от партнеров. Для лучшей осведомленности клиентом им могут рассылаться различные коммуникации о магазинах, где у них есть кэшбэк. В данном исследовании коммуникации не разбиты по типам, а лишь есть общее число полученных клиентом коммуникаций. 

 

 

№4 Тинькофф: сторис

В приложении Тинькофф есть истории, расположения вверху главного экрана. В них освещаются различные темы: от отслеживания трат клиентов, советов по фин грамотности, заканчивая интересными фактами, связанными с деньгами и финансами. Вам предстоит проанализировать, как клиенты взаимодействуют с историями.

 

 

№5 Тинькофф: юридические лица

В Тинькофф есть множество продуктов для юридических лиц. Прежде чем начинать сотрудничать с какой-либо из компаний нам хочется понимать, насколько компания честная. Так как, во-первых, мы можем потерять деньги из-за работы с нечестными компаниями, во-вторых, наши клиенты могут быть обмануты и нам не хочется такого. Для этого мы собираем данные о компаниях из различных открытых и не только источников и пытаемся предсказать, с кем можно сотрудничать, а с кем не стоит. Вам представлена часть данных о 15000 юридических лицах, которые отвечают за их описание и “репутацию”.

Датасет предоставлен партнером Олимпиады — авиакомпанией S7 Airlines.

№6 S7: продажи авиабилетов

Анализ данных продаж авиабилетов – крайне важная задача для любой авиакомпании.

Собранный из внутренних источников компании S7 датасет представляет из себя обработанный набор записей покупок авиабилетов по датам и их характеристики (способы оплаты, пассажиры, сегменты перелета, суммы и т. д.) за некоторый период времени.

 

 

№7 Бизнес-климат

Датасет состоит из двух файлов: БД_ИБК, содержащего месячные данные, характеризующие бизнес-климат в России на протяжении последних 20 лет, и macro data, содержащего ряд макропоказателей за тот же период.

 

 

№8 Мониторинг вузов

В наборе представлены данные мониторинга деятельности организаций высшего образования, собранные с официального портала мониторинга: monitoring.miccedu.ru/?m=vpo

 

 

№9 Региональная статистика

В наборе представлено большое число показателей, публикуемых Росстатом на ежемесячной основе в сборнике «Социально-экономическое положение России», и данные по числу открытых ИИС (индивидуальных инвестиционных счетов) от Московской Биржи. Каждый показатель собран в отдельный файл (один файл – один показатель), в котором по строчкам меняются регионы, по столбцам – периоды (в формате «годmмесяц», к примеру, «2015m01» – январь (первый месяц) 2015 года).

 

 

Данный датасет собирался исследователями НИУ ВШЭ и ТГУ.

№10 Качество образования

В базе представлены результаты Всероссийского онлайн опроса студентов по вопросам качества образования в период дистанционного обучения и после него. Данные включают в себя характеристику социального статуса студента, ступень и направления обучения, мотивацию, отношения к различным проблемам, возникающим в ходе дистанционного обучения. Подробнее с формулировкой вопросов можно ознакомиться в приложенном файле.Метод сбора данных - cawi (computer assisted web interview). Метод доступа к респондентам - административная рассылка писем с приглашением к опросу в вузы через систему ИАС Мониторинг. Время проведения опроса - осень 2021 года.

 

 

№11 Health

Уважаемые участники, вам доступны данные американского Исследование здоровья и выхода на пенсию (Health and Retirement Study, HRS) за 1992–2012 годы. Единицей наблюдения является индивид, данные носят панельных характер, то есть один индивид мог участвовать в исследовании несколько лет подряд.

Данные включают социально-демографические характеристики индивидов, информацию о здоровье респондента, его доходах, наличии или отсутствии медицинской страховки и характеристики работы респондента.

 

 

№12 Immigration

Уважаемые участники! Перед вами база данных масштабного опроса об отношении к иммигрантам, проведенного в 6 странах (Германия, Франция, Италия, Швеция, Великобритания и США), в общей сложности включающего 22,500 респондентов. Единицей наблюдения является индивид. Собиралась информация о социально-демографическом статусе участников (пол, возраст, занятость, образование…) и их взглядах на иммиграцию. Участникам также задали ряд вопросов, которые касались их представлений о фактах, связанных с эмиграцией, таких как их численность, регион происхождения, религия и уровень образования. Пример вопроса: 

Из каждых 100 человек, родившихся в США, сколько в настоящее время безработных? (Безработными мы называем людей, которые в настоящее время не работают, но ищут работу (и, возможно, не могут ее найти))
А теперь сравним это с количеством безработных среди легальных иммигрантов. Из каждых 100 легальных иммигрантов, как вы думаете, сколько в настоящее время безработных?

Данные были дополнены официальными статистическими данными о численности, происхождении, религии, образовании и т. д. иммигрантов.