Базы данных

На заключительном этапе олимпиады участники самостоятельно формируют команды, основываясь на интересах по исследованию той или иной базы данных. А познакомиться с базами данных участники могут на данной странице.

№1 Месячные данные региональной статистики

StatSpace
StatSpace - аналитическая компания, занимающаяся полным кругом задач от сбора статистики до построения моделей и прогнозирования. Помимо этого, компания занимается систематизацией и обработкой данных, описывающих состояние российской и мировой экономики

В наборе представлены данные, публикуемые Росстатом на ежемесячной основе в сборнике «Социально-экономическое положение России». Данные собраны из исходных word-файлов автоматическими процедурами. Формат оригинальных данных: один текстовый файл – один месяц.

№2 База данных муниципальных образований

Инфраструктура научно-исследовательских данных
Платформа доступа исследователей к данным о государстве и обществе. Благодаря платформе исследователи могут получать доступ к данным, а представители органов государственной власти ставить прикладные задачи и предоставлять для их решения наборы данных.

Датасет включает в себя консолидированные и предварительно обработанные данные муниципальной статистики за период с 2012 по 2018 годы. Датасет сформирован на основе данных, собранных Федеральной службой государственной статистики РФ (Росстат).

№3 Данные о новостройках Новой Москвы

bnMAP.pro
bnMAP.pro – сервис, предлагающий достоверные данные о прошлом, настоящем и ближайшем будущем рынка новостроек. Платформа позволяет автоматизировать сбор данных по новостройкам в 21 регионе России для последующего анализа и принятия решений.

База данных включает в себя обработанную информацию о проектах застройки Новой Москвы. Датасет в формате таблицы сформирован на основе информации по проектам новостроек, собранной из открытых источников и проверенной экспертами рынка. Данные были собраны экспертами платформы bnmap.pro и провалидированны ими. Всего в датасете содержится 64678 договоров.

№4 Региональная статистика

Инфраструктура научно-исследовательских данных
Платформа доступа исследователей к данным о государстве и обществе. Благодаря платформе исследователи могут получать доступ к данным, а представители органов государственной власти ставить прикладные задачи и предоставлять для их решения наборы данных.

В датасете «Региональная статистика» собраны 3 набора данных: демографическая ситуация по субъектам РФ, бюджеты регионов России: исполнение доходов, расходов и источники финансирования дефицита за 2011-2020 гг., статистические данные о занятости и безработице среди населения по возрастным группам.

№5 Проекты игр с Kickstarter

База данных включает в себя обработанную информацию о проектах игр с 2009 по 2016 год. Датасет в формате таблицы сформирован на основе проектов, опубликованных на сайте www.kickstarter.com. Данные были собраны с сайта www.kickstarter.com с помощью web-scrapping методов и обработаны для преобразования в машиночитаемый формат. Каждая строчка в таблице соответствует уникальному проекту. Всего в датасете содержится 8421 проект.

№6 Автомобильные аварии в Москве

Датасет содержит подробные данные о нескольких тысячах аварий в Москве, произошедших в течение 2020 года. Данные собраны с официального сайта ГИБДД. Анализ данных об авариях - очень важная задача, потому что в перспективе он может помочь планировать более эффективные и безопасные городские пространства для повышения качества логистики и экономики города, а также уровня жизни в нём.

№7 Экономический рост и производительность на уровне отраслей (KLEMS)

Russia KLEMS
Russia KLEMS — группа, сформированная в июле 2019 года и занимающаяся эмпирическими исследованиями долгосрочного экономического роста и производительности. Это часть международного проекта межстрановых сопоставлений производительности на уровне отраслей World KLEMS.

Датасет KLEMS содержит данные о динамике изменений факторов производства для отраслей и индустрий российской экономики, а также расчеты вкладов этих факторов в экономический рост страны. Датасет, сформированный группой «Russia KLEMS» и включающий данные за период с 1995 по 2016 гг, позволит исследовать темпы экономического роста валового выпуска, добавленной стоимости в российской экономике в целом и по отраслям.

№8 Европейское исследование ценностей (EVS)

ПАНДАН
ПАНДАН — это совместная образовательная программа Европейского университета и Яндекса. Цель программы — научить работе над проектами в различных сферах, используя методы классической статистики, обработки естественных языков, компьютерного зрения. 

The European Values study (или сокращенно EVS) — это крупномасштабное, межнациональное исследование-опрос, рассматривающее базовые человеческие ценности в Европейских странах. Проводимый раз в 9 лет, начиная с 1981 года, EVS покрывает страны от Исландии до Грузии и от Португалии до Норвегии. Данный опрос обеспечивает понимание идей, убеждений, предпочтений, поведений, ценностей и мнений граждан по всей Европе.

№9 Транзакции клиентов

Тинькофф Образование
Датасет предоставлен партнером олимпиады Тинькофф Образование. Тинькофф Образование – образовательные программы банка Тинькофф для школьников и студентов, чемпионаты и хакатоны.

В датасете представлены данные о транзакциях (покупках) клиентов за неделю в разбивке по категориям трат. В датасете можно найти информацию в какой день недели, в какое время суток и на какую сумму были совершены покупки (суммы транзакций округлены), также в датасете есть информация о том была ли совершена покупка онлайн или с присутствием карты.