Доход пользователей Twitter научились предсказывать по содержанию твитов
Для этого ученые разработали специальный алгоритм обработки естественной письменной речи, при помощи которого «просеяли» базу данных из более чем 10 миллионов твитов. Работа опубликована в журнале PLoS ONE.
В Великобритании все существующие виды работ делятся на 9 классов, организованных в иерархическую систему в зависимости от содержания той или иной трудовой деятельности и необходимых для ее выполнения навыков (The Standard Occupational Classification). Ученые отобрали 5191 Twitter-аккаунт, владельцы которых представляли все 9 существующих классов трудовой занятости. Для оценки среднегодового дохода представителей разных типов профессий использовались данные «Ежегодного исследования затрат рабочего времени и доходов» (Annual Survey of Hours and Earnings) за 2013 год, проводимого Национальной статистической службой Великобритании. Таким образом, ученые сформировали экспериментальную базу из 10 796 836 твитов.
На втором этапе исследования все твиты были «просеяны» через специальный алгоритм, отбирающий специфические слова, которые наиболее часто используют представители каждого из 9 классов профессий. Так как в подавляющем большинстве случаев люди пользуются примерно одинаковыми тезаурусами наиболее употребительных слов, алгоритм должен был выделить отдельные слова, обладающие самой высокой предсказательной силой. Иными словами, частота их употребления представителями данного класса профессий должна была статистически значимо отличаться от частоты употребления другими классами. Полученные группировки слов проверялись затем учеными вручную, и на их основе формировались особые категории кодов. Например, темы твитов могли подразделяться на категории «политика», «фондовые рынки», «спорт» и т. д. Эмоционально окрашенные слова и выражения на «страх», «гнев», «возмущения», «ругань», «обращения к богу» и т. д.
Выяснилось, что чем выше годовой доход владельца Twitter-аккаунта, тем он чаще выражает в твитах эмоции страха и гнева. А оптимистичные и жизнеутверждающие твиты, наоборот, характерны для людей с низкими доходами. Те, кто зарабатывал мало, были также склонны к перебранкам в Twitter с другими пользователями, а также открытым выражением своей религиозности (в большинстве случаев - христианской), в то время как более богатые люди чаще всего обсуждали политику, дела корпораций и некоммерческих общественных организаций.
Общий вывод ученых таков - представители классов с высоким доходом склонны использовать Twitter для быстрого распространения новостей и обсуждения деловых тем и вопросов, тогда как представители классов с низким доходом больше пользуются Twitter для обыденного общения и перебранок друг с другом.
На основании полученных данных можно решать и обратную задачу - предсказывать доход пользователей Twitter на основании тем сообщений и ключевых слов, однако, чтобы эти прогнозы были максимально точными и корректными, требуются дополнительные исследования.
Даниил Кузнецов