Почему я не верю в “цифровых двойников”

Читая научно-популярные статьи на праздниках, наткнулась на заявление, которое… ну, короче, я не могу пройти мимо:

Люди сегодня уже генерируют о себе больше информации, чем когда-либо. Социальные сети, покупки в интернет-магазинах, поисковые запросы — все это формирует портрет каждого из 7,5 млрд жителей нашей планеты. Но что, если после смерти эта информация будет продолжать жить и, возможно, даже развиваться, как это было в научном триллере с Джонни Деппом «Превосходство», где его сознание обрело вторую жизнь с помощью ИИ и нейронных сетей. Звучит немного жутковато, но об этом рассказал нам Игорь Волжанин, занимающийся психологическим профилированием для бизнеса. Человек — всего лишь набор из пяти чисел, а значит создать его цифровой двойник при наличии инструментов не составит труда.

Сам цифровой двойник человека — это онлайн-копия индивидуума, основанная на информации о его жизни: рождение, болезни, обучение, родители, работа, доход, семья, увлечения и хобби. Также имеет другой смысл, с физиологической точки зрения — точная модель человеческого организма, позволяющая изучать течение заболеваний, проводить тренировочные операции и лечение. В будущем, по словам гендиректора Philips Research Хенка ван Хаутена, двойник будет представлять собой комбинацию физиологических, анатомических, биомолекулярных знаний, основанных на научных исследованиях, и добавим к этому аналитику данных и машинное обучение. С помощью такой копии можно визуализировать данные в понятном врачу виде.

Социальная сторона цифрового двойника — более антиутопична. Реальные люди скоро перестанут интересовать мир. В этом уверен глава Сбербанка Герман Греф. Зато значение онлайн-копии — цифрового аватара, страничек в соцсетях, — наоборот, станет неуклонно повышаться, поскольку сможет сказать о своем физическом человеке очень много. Особенно в ближайшие десятилетия станет понятна та прозрачность людей для цифрового мира. Скрыть не удастся ничего.

Далее идёт гораздо более интересное рассуждение про то, что люди, возможно, станут оставлять своих “двойников” после смерти – но вот процитированный кусок я отношу к категории гнусного обмана публики ушлыми предпринимателями. Что, спрашивается, тут не так? Примерно всё, скажу я вам; начать можно хотя бы с некорректной подмены старого понятия “математическая модель” на модное “цифровой двойник” – но про это я раньше писала.

Сегодня речь пойдёт о чёрной магии соцсетевой математики с её разоблачением. Попробуйте как-нибудь самостоятельно скачать данные о участницах любого сообщества, скажем, в ВКонтакте. В прошлом году я как-то потратила выходные на возню с Java-скриптами и получила несколько картинок вида “распределение по полу” или “гистограмма возраста”; мой оптимизм быстро улетучился, когда я выяснила что порядка 70-80% пользователей ВКонтакте в принципе не указывает, например, свой уровень образования. А то, что люди о себе указывают, вообще-то не всегда соответствует действительности: некоторые из школьников, например, накидывают себе несколько лет для того, чтобы просто зарегистрировать аккаунт. Кто-то скрывается от жены, кто-то от начальника (скажем, школьные учителя массово делают фейковые аккаунты), кто-то просто накручивает посещаемость пабликов за счёт ботов или вовсе травит одногруппника.

Трололо – популярная в России фамилия. Ну, если верить ВКонтакте, конечно. А мы же верим Большим Данным?

Можно сколь угодно надувать щёки и говорить “мы умеем определять политические предпочтения пользователя и его сексуальную ориентацию по профилю в Facebook”. Разговоры про всемогущие нейросети, если начать копать глубже, оборачиваются тривиальной математизацией – вот я специально нашла реальные публикации и заглянула внутрь. Не в заявления маркетологов, не в расшифровку речи модного технологического визионера, а в доклады, где разработчики алгоритмов подробно описали свои детища:

Фрагмент одной из подобных работ. В ней много не самых очевидных показателей, но посмотрите в нижнюю часть текста, где я выделила главное: модель корректно выявила аж двадцать процентов геев! И почти тридцать процентов лесбиянок! Феноменально, правда?

Вместо процента корректно определённых гомосексуалов мы видим ROC AUC – показатель, объяснить смысл которого без использования понятия “интеграл” довольно сложно; это не случайно, а вполне закономерно – для неопытного человека может также сложится впечатление, будто модель корректно предсказывает сексуальную ориентацию в целых 94 процентах случаях… но нет. Это так называемая F1-оценка, которая – сюрприз! – не равна ни чувствительности метода, ни его избирательности. И ладно бы проблема была только в том, что алгоритмы дают плохой результат!

Вот иное сообщение:

Срочные новости: ЛГБТК люди чаще пишут на своих страницах слово “ЛГБТК” и “гейский”. Неожиданный вывод из другого исследования.

Вас удивляет то, что женщина (со словами non-op mtf queer feminist в профиле), состоящая в пабликах “Лесбийский кафель”, “Мир хардкорного лесботства”, “Альянс ЛГБТ и гетеросексуалов за равноправие”, “Типичная тема” и “Trans and Proud” – нецисгендерная лесбиянка и феминистка? Как по мне, так это скорее напоминает картинку “Определитель древесины”:

То, что алгоритм получает какие-то подобные выводы без участия человека, конечно, само по себе интересно и вселяет осторожный оптимизм по поводу возможностей нейросетей в будущем… но сейчас эти заключения бесполезны с практической точки зрения. Равно как и слова рекламщиков о якобы идеальном таргетировании рекламы разбиваются на практике вдребезги: возможно, рекламу можно показывать очень точно, но пока я постоянно вижу перлы вида “предлагаем ипотеку восьмилетней школьнице” и “подписчице фемпабликов советуют секреты женственности от Валяевой”. Да, всемогущий Google, избавь меня уж от показа баннеров с предложением купить фемтосекундный лазер, а? Ну, ты же, как любят некоторые говорить, всё-всё-всё видишь!

Если добавить сюда то, что большинство знакомых представителей старшего поколения (1960-е и ранее) вообще не имеют профилей в соцсетях или в лучшем случае держат полупустые аккаунты – слова про цифровых двойников теряют смысл, их нет у значительного числа людей. И это не про пенсионеров из глухой деревни, а про тех людей, которые нас окружают. Как вы думаете, сколько американцев использует, скажем, Tinder?

Примерно каждый седьмой:

Вот статистика по США в 2018 году – кому интересно, рекомендую почитать подробнее, кликнув на картинку.

При этом другие данные свидетельствуют, что 70% пользующихся тем же сервисом студентов колледжей никогда ни с кем не встречается: даже если они совпали с потенциальной партнёршей. Делать на основании этого какие-либо выводы надо с очень изрядной долей осторожности, равно как и данные из любой онлайн-штуковины всегда будут отличаться от “реальной жизни”.

Впрочем, это не значит, что “онлайн жизни нет”. Она есть, просто выборка пользователей того или иного сервиса – не является репрезентативной по отношению ко всем жителям города или страны. Сообщества в сети можно и нужно изучать, для этого в ряде случаев действительно незаменимы методы “больших данных”, но принцип “мусорный запрос даёт мусорные результаты” никто не отменял: если вы не понимаете, чего хотите, доступ к миллионам аккаунтов вам не поможет.

И да, человек это не набор из пяти чисел. И даже не набор из результатов MMPI или ещё какого большого психологического теста. Люди в большинстве задач не моделируются таким образом, это пример того самого мусорного запроса и чрезмерного упрощения. Вы, конечно, можете получить какую-нибудь идиотскую хрень вида “показатель макиавелизма достоверно уменьшает вероятность того, что отношения продлятся дольше шести месяцев”, но вообще-то любая из моих прапрабабушек распологала тем же знанием в куда более простой и удобной формулировке – “дочь моя, не связывайся с теми, кто наврёт с три короба и не покраснеет”. Тут не нужны нейросети, тут не нужно “психологического профилирования”… если, конечно, у вас нет задачи развести инвестора на некий “прорывной программный продукт” при помощи модных слов и понятий.

Tagged , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *