MODELING OF USER PORTRAIT THROUGH SOCIAL MEDIA
Haiqian Gu1,2, Jie Wang3, Ziwen Wang1,2, Bojin Zhuang3, Fei Su1,2
1School of Information and Communication Engineering 2Beijing Key Laboratory of Network System and Network Culture Beijing University of Posts and Telecommunications, Beijing, China
3Ping An Technology (Shenzhen) Co., Ltd. mixiu@bupt.edu.cn, wangjie388@pingan.com.cn, wangziwen@bupt.edu.cn,
zhuangbojin232@pingan.com.cn, sufei@bupt.edu.cn
ABSTRACT
·
Nowadays, massive useful data of user information and social behavior have been accumulated on the Internet, providing a possibility of profiling users personality traits online. In this paper, we propose a psychological modeling method based on computational linguistic features to profile Big Five personality traits of users on Sina Weibo (a Twitter-like microblogging service in China) and their correlations with userrsquo;s social behaviors. To the best of our knowledge, this is the first research on investigating the potential relationship between profile information, social-network behaviors and personality traits of users on Sina Weibo. Our results demonstrate an effective modeling approach to understanding demographic and psychological portraits of users on social media without customer disruption, which is useful for commercial incorporations to provide better personalized products and services.
Index Terms— User portrait, social media, Big Five personality, microblog text, user behavior
INTRODUCTION
Personality has been widely studied as it both reflects and affects peoplersquo;s behavior, which exhibits promising applications in precision marketing. Recently, data-driven psychological interpretation of usersrsquo; personality has drawn much attention. Sina Weibo, as a very popular and important social media in China, are posted about 100 million microblogs every day [1]. With accumulation of such large- scale online data, conventional questionnaire-based personality measurement becomes expensive and inefficient. To address this issue, various data-driven modeling methods have been studied for user portrait computation based on user information and social behavior. Zhao et al. [2] proved the validity of SC-LIWC (Simplified Chinese version
Thanks to Chinese National Natural Science Foundation (61532018, 61471049) for funding.
978-1-5386-1737-3/18/$31.00 copy;2018 IEEE
of Linguistic Inquiry and Word Count) in detecting psychological expressions in SNS short texts and Qiu et al.[3] studied the relationship between Chinese short texts and corresponding word categories of SC-LIWC. These two results are indeed fundamental research foundation for our work. Furthermore, Golbeck et al. [4] demonstrated that public information shared on Facebook could be used to predict usersrsquo; Big Five personality. Sumner et al. [5] demonstrated that there were some links between Dark Triad constructs and Twitter usage and employed a variety of machine learning techniques to predict these constructs in users. However, both [4] and [5] ignored usersrsquo; social behaviors, and our study make up for this limitation. On the other side, Hung et al. [6] introduced a tag-based user profiling for social media recommendation, but they did not give concrete user profiles. In short, most of the previous researches on this area utilized only one type of information on social network, such as text data or profile features. In our study, we take a comprehensive consideration on correlations between Big Five personality trait dimensions and userrsquo;s information and social behavior, and successfully predict userrsquo;s personality.
The key contributions of this paper are summarized as follows:
- An effective calculation model of Big Five personality scores based on SC-LIWC word frequencies has been proposed and demonstrated, personality profiles of Sina Weibo users have been calculated;
- 6,467 valid Weibo users have been selected to compute Big Five personality scores based on their posted short texts. And the way we train the personality calculation model has also been discussed;
- Correlation analysis between Big Five personality scores and SC-LIWC word frequency features, userrsquo;s tags, userrsquo;s demographics, userrsquo;s emoticon usage and userrsquo;s behaviors has comprehensively conducted, verifying the possibility of profiling userrsquo;s personality from microblog texts and other information they share on Sina Weibo.
THEORETICAL BACKGROUND
-
- The Big Five personality
The Big Five model consisting of five categorical personality traits, i.e. Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism, has become one of the most widely-adopted psychological analysis models recently [7].
The Big Five model is characterized as shown in Table 1 [8]. It has well examined and developed as an important psychometric method by many researchers, which providing a comprehensive profile of an individualrsquo;s cognitive patterns.
Table 1. The dimensions of Big Five model
Dimension |
Score |
Personal traits |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Openness |
high |
Wide interests, Imaginative, Intelligent, Curious |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
low |
Commonplace, Simple, Shallow, Unintelligent |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Conscientiousness |
high |
Organized, Tend to plan, Efficient, Responsible |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
low |
Careless, Disorderly, Frivolous, Irresp 剩余内容已隐藏,支付完成后下载完整资料 通过社交媒体模拟用户画像 Haiqian Gu, Jie Wang, Ziwen Wang, Bojin Zhuang, Fei Su 北京邮电大学信息与通信工程学院 北京市网络系统与网络文化重点实验室,北京 平安科技(深圳)有限公司 mixiu@bupt.edu.cn, wangjie388@pingan.com.cn, wangziwen@bupt.edu.cn, zhuangbojin232@pingan.com.cn, sufei@bupt.edu.cn 摘要:如今,用户信息和社交行为的大量有用数据已经在互联网上积累,提供了在线描述用户个性特征的可能性。 在本文中,我们提出了一种基于计算语言特征的心理建模方法,用于描述新浪微博(中国类似Twitter的微博服务)用户的五大个性特征及其与用户社交行为的相关性。 据我们所知,这是第一个在新浪微博上调查个人资料信息,社交网络行为和个性特征之间潜在关系的研究。 我们的结果展示了一种有效的建模方法,可以在没有客户中断的情况下理解社交媒体上用户的人口统计和心理肖像,这对于商业公司提供更好的个性化产品和服务很有用。 关键词:用户画像,社交媒体,五大个性,微博文本,用户行为
人格已被广泛研究,因为它反映和影响人们的行为,这在精准营销中表现出有希望的应用。最近,数据驱动的用户个性心理解释引起了人们的广泛关注。新浪微博作为中国非常受欢迎和重要的社交媒体,每天发布约1亿条微博[1]。随着这种大规模在线数据的积累,传统的基于问卷调查的人格测量变得昂贵且效率低下。为了解决该问题,已经基于用户信息和社交行为研究了用于用户肖像计算的各种数据驱动建模方法。赵等人。[2]证明了SC-LIWC(简体中文版语言查询和字数统计)在检测SNS短文中的心理表达方面的有效性和Qiu等[3]研究了中文短文与SC-LIWC相应词类之间的关系。这两项成果是我们工作的基础研究基础。此外,Golbeck等人 [4]证明Facebook上共享的公共信息可用于预测用户的五大个性。 Sumner等人 [5]证明Dark Triad结构与Twitter使用之间存在一些联系,并采用各种机器学习技术来预测用户的这些结构。然而,[4]和[5]都忽略了用户的社交行为,我们的研究弥补了这一局限。另一方面,Hung等人[6]为社交媒体推荐引入了基于标签的用户配置文件,但他们没有给出具体的用户配置文件。简而言之,此前大多数关于该领域的研究仅使用社交网络上的一种信息,例如文本数据或简档特征。在我们的研究中,我们综合考虑了五大个性特征维度与用户信息和社会行为之间的相关性,并成功预测了用户的个性。本文的主要贡献概括如下: (1)提出并证明了基于SC-LIWC词频的五大个性评分的有效计算模型,计算了新浪微博用户的个性档案; (2)已选择6,467名有效微博用户根据发布的短文本计算五大个性评分。 我们还讨论了培养人格计算模型的方法; (3)五大人格得分与SC-LIWC词频特征,用户标签,用户人口统计,用户表情使用和用户行为之间的相关性分析全面进行,验证了在新浪微博上分享微博文本和其他信息对用户个性进行概况分析的可能性。
2.1 五大个性 由五个分类个性特征组成的五大模型,即开放性,尽责性,外向性,亲和性和神经质,已成为最近广泛采用的心理分析模型之一[7]。 五大模型的特征如表1所示[8]。 它已被许多研究人员充分研究和发展为一种重要的心理测量方法,它提供了个人认知模式的综合概况。 Table 1. The dimensions of Big Five model
2.2 SC-LIWC 语言查询和字数统计(LIWC)[9]是一种基于心理意义类别的字数统计的有效文本分析模型。 但是,它最初只是用英语开发的。 为了满足处理简体中文文本的需求,Gao等人[10]基于早期版本的LIWC及其繁体中文版本(C-LIWC)[11]开发了LIWC的简体中文版本(SC-LIWC)。 此外,中文社交网络中的高频词已被添加到SC-LIWC的词典中,以便更好地分析新浪微博短文。 在本研究中,SC-LIWC用于计算字频特征。 3.方法论 3.1 个人数据搜集 在数据准备方面,我们在线收集了100名微博志愿者的有效五大个性评分。此外,最近收集了200个微博用户,共有9,555名微博用户,其中包括100名志愿者。 此外,还同时收集了用户的其他个人资料信息,例如年龄,性别,地点,教育等。根据特定过滤条件,排除了包括营销和非活动帐户在内的无效用户。例如,其帖子包含广告URL和关注者数量的某些帐户小于10.根据用户对这些转发文本的协议假设,已经以与原始微博相同的方式收集了重新发布的微博。总共有6,467名有效用户的社交数据被用于本文。 3.2 数据清理 为了获得高质量的微博文本,预先进行了各种预处理和基本自然语言处理工作,如分词和文本清理。预处理的实现细节描述如下: (1)删除URL链接(例如http:// ...),微博用户名(例如@ username-带上符号@表示用户名),井号符(例如#example#),微博特殊字(例如回复,转发)和地理位置; (2)自动删除系统生成的文本(例如抱歉,此微博已被删除); (3)删除广告和垃圾邮件,包括“淘宝”(中国的消费者对消费者零售平台)等某些关键词; (4)用“Jieba”(中文文本分割工具)分割中文单词,生成一系列单词。 3.3 映射矩阵 在Python的Scikit-learn模块的帮助下,我们通过100个志愿者的真正的五大个性得分和他们的微博文本计算的SC-LIWC词频来计算五大个性得分和SC-LIWC词频之间的映射矩阵。 从而建立了心理计算模型。 4.原始数据统计 4.1 人口统计信息概述 人们不可避免地会分享虚假信息或只保留默认选择。 例如,我们发现许多人出生于“1970-01-01”,这是微博的默认生日选项。 为了尽可能消除虚假信息的影响,我们将年龄范围限制在10到47之间(如果用户保持默认生日选项,那么他的年龄将为48岁)。 为了全面了解数据,我们绘制表2以显示来自6,467个有效用户的各种人口统计数据,呈现多元化的参与者群体。 4.2 五大个性评分概述 基于映射矩阵,我们计算了6,467个用户的五大个性得分,并绘制了表3来描述所有用户中每个个性特征维度的平均值。 Table 2. Demographic statistics of 6,467 users
Table 3. 6,467 usersrsquo; average Big Five scores and standard deviation (S.D.)
4.3 用户标签的分布 微博用户可以选择最多写10个标签来显示他们的兴趣或工作领域。 在6,467名有效用户中,有5,656名用户使用多个标签进行标记,我们总共收集了9,620个不同的标签。 但是,超过10个用户引用的标签仅占4%。 这是因为标签是用用户自己的文字书写的,因此有很大的差异。 无论如何,最常见的标签仍然非常典型。 从基于标签的用户配置文件中,我们可能知道用户是“90后”,沉迷于“音乐”和“旅行”,并且是一个“幽默”的男孩。 5.分析结果 5.1 个性得分与SC-LIWC词频之间的相关性 我们在SC-LIWC词频和五大个性得分之间执行Pearson相关值。表4列出了与至少一个人格特征显着相关的SC-LIWC词类别。强相关以粗体突出显示。表4中显示的所有值对于p lt;0.05是可靠的,除了具有尾随星号的一些不可靠值。用户的单词使用和五大个性得分之间存在许多相关性。 Table 4. Pearson correlation values between SC-LIWC word frequencies and Big Five personality scores.
|
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。