Базы данных 2025-2026

На заключительном этапе олимпиады участники самостоятельно формируют команды, основываясь на интересах по исследованию той или иной базы данных. Перечень баз данных, доступных для исследования, представлен на этой странице. 

1. ЭкоНива: Молочное производство

Группа компаний «ЭкоНива» — один из крупнейших холдингов и лидер по производству молока в России, основанный в 1994 году Штефаном Дюрром. Группа включает четыре подразделения — производство сельскохозяйственной продукции, выпуск молочных продуктов, поставку агротехники и племенное дело — и представлена в 40 регионах России.

ЭкоНива разработала и внедрила систему управления кормлением животных EkoFeed, в которой фиксируется информация о составе и количестве приготовленного корма, правильности его приготовления (весе и последовательности загрузки отдельных ингредиентов в кормосмеситель), а также правильности его раздачи определенным группам коров в коровнике. Корм — один из ключевых факторов, влияющих на молочную производительность коровы и ее состояние. Анализ кормления — важная задача, позволяющая зоотехникам оперативно реагировать на падение надоев или повышение количества заболеваний у животных. Данные представлены за период с 2022 по 2025 год и отражают основные показатели животноводства в разрезе каждого животноводческого комплекса и весь процесс кормления животных — от формирования рациона до его раздачи в коровнике


 

2. X5 Tech: Аналитика эффективности магазинов «Пятёрочки»

X5 Tech — ИТ-компания и основной цифровой партнер X5. Мы разрабатываем онлайн- и офлайн-решения, которые помогают более чем 420 тысячам сотрудников группы работать с максимальным технологическим комфортом, а миллионам покупателей — быстро и удобно покупать свежие продукты.


В рамках этого кейса предоставлена выгрузка информации о магазинах торговой сети «Пятёрочка» за один календарный год. Данные собраны на уровне отдельных торговых точек и включают как операционные показатели (трафик, средний чек), так и внешние факторы окружения — инфраструктуру, плотность населения, соседние объекты и конкурентную среду. В целях защиты коммерческой тайны отдельные числовые поля были модифицированы. При этом сохранены относительные соотношения между значениями, чтобы данные оставались пригодными для анализа.


 

3. Т-Банк: сервисный сбор в Топливе

Датасет содержит недельные данные об использовании сервиса «Топливо» в экосистеме Т-Банка, включая информацию о заказах, размерах сервисного сбора и поведении клиентов. Помимо данных по активности в сервисе, доступны расширенные характеристики клиентов, такие как демография, регион, тип занятости и уровень образования. Сервисный сбор принимает одно из фиксированных значений, и задача аналитиков — понять, как его размер влияет на метрики: оборот, количество заказов и активность клиентов. Датасет позволяет исследовать поведение пользователей, сравнивать группы клиентов и оценивать влияние ценовых изменений.


 

4. Т-Банк: отзывы клиентов о Т-Банке

Датасет содержит отзывы действующих клиентов Т-Банка о продуктах, сервисах и работе поддержки, собранные с внешних платформ и социальных сетей. В данных представлены как количественные метрики — оценки, тональность, временные метки, — так и качественные тексты отзывов. Все обращения проходят модерацию, а проблемные случаи перенаправляются специалистам поддержки для решения. Датасет позволяет анализировать клиентский опыт: измерять удовлетворенность (CSAT), определять тональность, выявлять темы и сегменты пользователей. 

 

 

5. Регионы России: экономика, климат, преступность

База данных регионов России включает множество показателей, описывающих экономику, общество и климат регионов РФ за достаточно продолжительный временной промежуток. Данные, характеризующие разные стороны жизни регионов, содержатся в отдельных файлах.


 

6. Аварии на загородных трассах

Статистические данные с сайта ГИБДД России. В исходном виде они представляют собой массив карточек дорожно-транспортных происшествий, собранных по всем регионам Российской Федерации в период с января 2015 года по март 2025 года. Каждая карточка содержит детальную информацию о конкретном ДТП, включая обстоятельства происшествия, характеристики дорожных условий, сведения о транспортных средствах, участниках, а также последствия аварии, фиксируются дата и время происшествия, а также точные координаты места (широта и долгота).

 

 

7. Т-Банк: коммуникации в городе

Датасет содержит данные о коммуникациях с клиентами внутри экосистемы Город Т-Банка, включая активные и пассивные каналы и реакцию пользователей на них. Для каждого клиента по дням указано количество показов, кликов и совершенных заказов по разным категориям сервисов: развлечения, транспорт, шопинг, отели, супермаркеты и авиабилеты. Клиент мог совершить покупку как в день коммуникации, так и позже, что особенно важно для сложных сервисов вроде путешествий. Дополнительно доступны демографические признаки клиентов и информация об устройстве.


 

8. Т-Банк: воронка авиабилетов

Датасет содержит информацию о взаимодействиях пользователей с сервисом покупки авиабилетов внутри экосистемы Т-Банка. В него входят данные о клиентах, их сессиях, посещённых экранах и покупках, совершенных внутри сервиса. Каждый клиент может иметь несколько сессий, принадлежать разным сегментам в разный период и проходить неполную воронку. Датасет позволяет анализировать путь пользователя — от входа в сервис до покупки — а также изучать предпочтения клиентов и эффективность источников трафика.


 

9. BnMAP.pro: продажи новостроек в Новой Москве

BnMAP.pro — система мониторинга и анализа рынка недвижимости, которая позволяет корректно оценить потенциал инвестиционной площадки и не допустить ошибок в процессе ее рыночной реализации: от концепции до продаж. BnMAP.pro представлена в 40 регионах Российской Федерации, доступна во всех городах-миллионниках и областях опережающего развития.

В датасете представлены данные о зарегистрированных сделках по продажам квартир и апартаментов в новостройках на этапе строительства в границах НАО и ТАО г. Москвы. В сете содержится полная информация о каждом лоте в сделках по ряду дескрипторов: от названия проекта и его локации до названия банка-залогодержателя и количества месяцев обременения по ипотечному кредиту.