Реален ли сценарий «Черного зеркала»? Разговор с аналитиком персональных данных
В 2022—2023 учебном году национальная олимпиада по анализу данных DANO пройдет во второй раз. Ее организаторами выступят НИУ ВШЭ и Тинькофф.
Об олимпиаде, буднях аналитика персональных данных и сериале «Черное зеркало» мы поговорили с Жорой Сукасяном — сопредседателем методической комиссии олимпиады DANO, руководителем Profiles Platform Тинькофф, преподавателем МИЭФ НИУ ВШЭ.
— Аналитика данных очень разная: есть аналитика бизнеса, аналитика продукта и так далее. Вы занимаетесь аналитикой персональных данных. Чем подобная аналитика отличается от других видов?
— Стандартная продуктовая аналитика подразумевает ответственность за какую-то часть процесса. Классический пример — аналитика воронки продаж. Есть аналитики воронки: они считают разные метрики, запускают эксперименты, пытаются аналитически поменять и улучшить процесс продаж. У нас есть и повторяющиеся, и схожие части — например, мы тоже ответственны за процесс.
Но есть и своя специфика: мы не используем большинство стандартных экспериментов, например AB-тестирование, а многие метрики к аналитикам персональных данных неприменимы, потому что у нас процессы внутренние, «бэковые». Еще одно отличие — большой перекос в сторону алгоритмов машинного обучения. Конечно, мало аналитиков погружаются в тюнинг нейронных сетей или другой rocket science, в основном это готовые решения с настройкой параметров.
Кроме этого, мы оптимизируем еще и работу с сырыми данными — с теми же персональными данными. Например, понимая, что Женя и Евгений — это одно и то же имя, мы пишем для этого алгоритм. У нас большой пласт задач, связанных с human knowledge, и миллионы клиентов, поэтому приходится все алгоритмизировать, перепроверять, и тут мы достаточно близки к машинному обучению.
— Что представляют собой персональные данные глазами аналитика? Как с ними можно работать?
— По законодательству как банк мы обязаны хранить персональные данные о человеке: информацию о его актуальном паспорте, ФИО, контактный телефон, дату рождения, информацию о договоре и прочее. А как кредитная организация, которая выдает свои деньги, мы пытаемся понять, кому их выдаем. Поэтому мы, помимо прочего, собираем данные о работодателе, кредитную историю — они тоже требуют очистки и обработки. Иногда мы сталкиваемся с фродом: люди пытаются себя выдать за другого человека, оформить кредиты на купленные в переходах паспорта. Поскольку мы онлайн-банк и у нас нет отделений, очень важно найти баланс между тем, чтобы предоставить удобства клиенту, и тем, чтобы не оставить лазейку мошеннику. Иногда эти обстоятельства накладывают ощутимые ограничения на то, что мы можем сделать для клиентов: мы развиваемся как экосистема, со своим супераппом и лайфстайл-сервисами, но есть специфичный для банка минус — открывая приложение, нужно как минимум приложить палец. Все это сейчас автоматизируется и улучшается. Так, персональные данные — это еще и ключ к безопасности.
— Есть стереотип, что если компании используют персональные данные, они будут использоваться для рекламы и навязывания услуг. Так ли это?
— На самом деле, персональные данные важны преимущественно на этапе «первого входа». Яркий пример рекомендательной системы Тинькофф — истории в приложении. Если пользователь просмотрел и лайкнул десять историй, его персональные данные уже почти ни на что не влияют, поскольку появляется история интересов, лента становится адаптационной. Наши сотрудники находятся в поиске оптимального алгоритма, поэтому параллельно проводится масса тестирований. В таком случае персональные данные уже не так важны, используются лишь идентификаторы «мужчина/женщина». Если же мы говорим о пользе применения персональных данных непосредственно для клиентов, то речь идет еще и о новых продуктах. Например, мы знаем, что у нас достаточно молодая и «проайтишная» аудитория, и мы понимаем, какие для нее делать продукты. Это определяет в том числе то, как мы развиваемся.
Нет такого, что мы смотрим, как, где и с кем живет конкретный человек — мы оперируем обобщенными данными, извлекаем аналитику, и на базе этой информации запускаем релевантные продукты и сервисы. Персональные данные используются, но не конкретного человека, а как агрегация: это позволяет нам становиться лучше и предоставлять больше удобств для клиентов.
— Вы упоминали, что принципы работы с персональными данными напоминают сюжеты из сериала «Черное зеркало». Расскажите поподробнее.
— Это напрямую связано с безопасностью. Например, большая проблема для Тинькофф возникает, когда девушки выходят замуж и меняют фамилию и телефоны: из всего перечня персональных данных у нас остаются только имя, отчество и дата рождения. Здесь мы пытаемся использовать альтернативные методы. Сейчас у нас в разработке алгоритмы работы с фотографиями: они различают, один и тот же ли это человек. Система достаточно продвинутая, она умеет отличать фотографии от плакатов, рисунков, изображений в маске и так далее.
Также мы смотрим, где проходят транзакции и насколько это странное место. Для этого мы используем физическое местоположение транзакций. Если человек постоянно проводил оплату через Apple Pay и жил на зеленой ветке московского метрополитена, но вдруг заплатил картой в Воронеже, то мы что-то заподозрим. Возможно, попросим его позвонить и сказать пару фраз или же подтвердить транзакцию в приложении.
— Аналитика стремительно развивается. Как вы считаете, какова вероятность, что наш мир через 30 лет и впрямь будет напоминать «Черное зеркало»?
— Государство развивается в этом направлении: те же биометрические данные и цифровые паспорта. Я думаю, что цифровизация будет продолжаться, но из-за того, что рынок достаточно новый, не всем понятно, как действовать в его рамках. Вряд ли сценарий, в котором кто-то не сможет зайти в «Пятерочку», потому что нагрубил кассиру, будет реален.
— Какой для вас идеальный мир будущего?
— Раньше обычный человек ради своего выживания думал о еде, занимался фермерством. Эта эпоха уходит, люди чаще задумываются о чем-то более высоком. Мне кажется, с интеллектуальной работой происходит нечто подобное. Если раньше архивные истории требовали огромного количества ресурсов и общественной организованности, отчетности, согласованности, то сейчас этот процесс стал более простым и автоматизированным. Такое развитие высвобождает ресурсы для мыслей не только о том, как работать, но и о том, как улучшаться и менять мир. Я предполагаю, что через 30 лет это будет повсеместно — не только в ИТ, но и в других сферах. Люди будут меньше заниматься рутиной и больше обращаться к высоким и осмысленным вещам. Возможно, потребуется замена привычного графика «пять на два». Но те изменения, которые пережили ИТ-компании за последние 20—30 лет, перейдут в другие сферы, и жить станет легче.
— Опишите аналитику данных в пяти словах.
— Я умею считать до пяти (смеется).
— Какой главный навык при работе с данными?
— Понимание, что важны не просто числа, а информация, которая за ними стоит.
— Что нужно любить, чтобы стать крутым аналитиком?
— Любить математику и уметь искать закономерности. Например, я от нечего делать могу начать следить за номерами на автомобилях и пытаться определить «красивые» для меня номера.
— В чем сила в аналитике?
— В открытости к изменениям. Человек с десятилетним опытом должен понимать, что новинки и изменения появляются постоянно и что его опыт в каком-то конкретном кейсе может не быть ультимативным. Важны гибкость и умение рассмотреть другую точку зрения.
— Оказавшись перед абитуриентом по направлению «Аналитика данных», что вы ему скажете?
— Хороший выбор!