Michal Kosinski
Building a profile of subjective well-being for social media users
Building a profile of subjective well-being for social media users by L. Chen , T. Gong , M. Kosinski, D. J. Stillwell, R. L. Davidson. PLOS ONE, 2017.
主观幸福包括“情感”和“生活满意度”(SWL)。本研究提出了一种基于Facebook状态更新的社交媒体语言来构建主观幸福感的统一方法。通过情绪分析来生成用户的情感分数,训练一个随机森林模型来预测SWL,使用情感分数和状态更新的其他语言功能。结果表明:计算机选择的功能类似于早期研究中确定的SWL的关键预测因子;机器预测的SWL与自我报告的SWL中度相关(r = 0.36,p <0.01),表明基于语言的评估可以构成有效的SWL测量;机器评估的情绪分数与之前的实验研究中报告的情况类似;机器预测的主观幸福感也可以反映其他心理特征如抑郁(r = 0.24,p <0.01)。这项研究提供了重要的洞察心理预测使用多个机器评估组件和纵向或密集心理评估使用社交媒体语言。
Private traits and attributes are predictable from digital records of human behavior
我们展示了易于访问的数字行为记录,Facebook的喜欢,可以用来自动和准确地预测一系列高度敏感的个人属性,包括:性取向,种族,宗教和政治观点,人格特质,智力,快乐,使用成瘾物质,父母分居,年龄和性别。所提供的分析是基于超过58,000志愿者的数据集,他们提供了他们的Facebook赞,详细的人口统计资料以及几项心理测试的结果。所提出的模型使用降维来预处理喜欢的数据,然后进入逻辑/线性回归预测喜欢的个人psychodemographic配置文件。在88%的案例中,模型正确地区分了同性恋和异性恋者,非裔美国人和高加索裔美国人在95%的案例中,民主党和共和党在85%的案例中也是如此。对于人格特质“开放性”,预测准确性接近标准人格测验的重测精度。我们举例说明属性和喜欢之间的关联,并讨论对在线个性化和隐私的影响。
Crowd IQ: Measuring the Intelligence of Crowdsourcing Platforms
我们根据标准智商问卷测量众包表现,并在不同条件下考察亚马逊的机械特克(AMT)表现。 其中包括所提供的支付金额的变化,不正确的答复会影响工人的声誉,阈值参与AMT工作者的信誉分数,每个任务的工人数量。 我们发现,由高信誉的工作人员组成的人群比低信誉的人群获得更高的绩效,并且支付量的影响是非单调的 - 既付出太多也影响绩效。 此外,当任务设计成不正确的响应会降低工人的信誉评分时,可以获得更高的绩效。 使用大多数票数来对同一任务的多个响应进行汇总可以显着提高绩效,这可以通过动态分配工作人员来完成任务来进一步提高,从而打破关系。
Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach
我们分析了7万5千名志愿者的Facebook消息中收集到的7亿个词汇,短语和主题实例,他们也进行了标准的人格测试,发现语言的个性,性别和年龄有显着的变化。在我们的开放词汇技术中,数据本身驱动对区分人的语言进行全面的探索,找到与传统的闭合词汇类别分析无法捕捉的联系。我们的分析揭示了社会心理过程产生的新的结果,这些结果是有效的(例如,生活在高海拔地区的受试者谈论山脉),配合其他研究(例如,神经质的人不成比例地使用“生病”这个词,抑郁“),提出新的假设(例如,积极的生活意味着情绪的稳定),并给出详细的见解(男性使用”我的“所有格,当提到他们的”妻子“或”女朋友“比女性更常使用”丈夫“或”男友“)。到目前为止,这代表着语言和个性最大的研究
Computer-based personality judgments are more accurate than those made by humans
判断别人的人格是成功社会生活的基本技能,因为人格是人们互动,行为和情感背后的关键驱动力。虽然准确的个性判断来源于社会认知技能,机器学习的发展表明计算机模型也可以作出有效的判断。这项研究比较了人类和计算机为基础的人格判断的准确性,使用完成了100项个性问卷调查的86,220名志愿者的样本。我们发现:(i)基于通用数字足迹(Facebook喜欢)的计算机预测比参与者的Facebook朋友使用个性问卷(r = 0.49)更准确(r = 0.56); (二)计算机模型显示较高的法官间协议; (iii)计算机个性判断在预测物质使用,政治态度和身体健康等生活结果时具有较高的外部效度;对于一些结果,他们甚至超过了自我评价的个性得分。计算机在人格判断上超越人类在心理评估,市场营销和隐私领域面临着巨大的机遇和挑战。
Mining Big Data to Extract Patterns and Predict Real-Life Outcomes
本文旨在向读者介绍基本工具,可用于获取见解和使用大型数据集建立预测模型。数字环境中最近的用户扩散导致出现大量样本,其中包含大量人类行为,交流和社会交往的痕迹。这样的样本提供了大大提高我们对个人,团体和社会的理解的机会,但是他们的分析提出了独特的方法论挑战。在本教程中,我们将讨论这些数据的潜在来源,并解释如何有效地存储这些数据。然后,我们介绍两种经常用于提取模式和降低大数据集的维数的方法:奇异值分解和潜在狄利克雷分配。最后,我们演示如何使用从数据中提取的维度或集群以交叉验证的方式构建预测模型。文本伴随着R代码和一个样本数据集的例子,使读者可以练习这里讨论的方法。网站(http://dataminingtutorial.com)提供了额外的学习资源。
Manifestations of user personality in website choice and behaviour on online social networks
个性的人格差异影响着用户的在线活动,就像他们在离线世界中所做的那样。 这项基于超过三分之一百万用户的样本的工作,预测了用户在网络环境中的行为(由他们的网站选择和Facebook个人资料特征所捕获)与他们的个性有关,如通过标准五因素 模型个性问卷。 结果显示,用户个性,网站偏好和Facebook个人资料特征之间存在心理上的有意义的联系。我们展示了网站受众在个性方面的差异,呈现个性和Facebook个人特征之间的关系, 个性可以从Facebook的个人资料特征预测。我们的结论是,预测用户的个性配置文件可以用来个性化内容,优化搜索结果,并改善在线广告。
大五人格
Facebook as a Research Tool for the Social Sciences
Facebook正在迅速获得认可,成为社会科学的强大研究工具。它构成了一个庞大而多样的参与者池,可以选择在线和离线学习。此外,它通过存储用户的人口统计资料,社会互动和行为的详细记录来促进数据收集。通过与会者的同意,这些数据可以以方便,准确和廉价的方式进行追溯记录。基于我们在设计,实施和维护多个基于Facebook的心理学研究方面的经验,吸引了超过1000万的参与者,我们展示了如何使用Facebook招募参与者,使他们有效地实现自我激励,并最大化他们的参与。我们还概述了使用Facebook进行研究的最重要的机会和挑战,提供了一些关于如何在Facebook上成功实施研究的实用指南,最后讨论道德考量。
Psychological targeting as an effective approach to digital mass persuasion
人们在许多不同的环境下都能够有说服力的沟通:政府,公司和政党使用劝说性的呼吁,鼓励人们吃得更健康,购买特定的产品,或者投票给特定的候选人。实验室研究表明,这种有说服力的诉求在根据个人独特的心理特征量身定制时更能有效地影响行为。然而,现实世界中大规模心理劝说的调查受到心理评估问卷性质的阻碍。然而,最近的研究表明,人们的心理特征可以从他们的数字化脚印中准确地预测出来,比如他们的Facebook Like或Tweets。利用数字足迹这种形式的心理评估,我们测试心理说服对生态环境中人们行为的影响。在三次实地调查中,超过350万人拥有心理定位的广告,我们发现将说服性诉求的内容与个人的心理特征相匹配,显着地改变了他们的行为,如点击和购买。与人们的外向性或开放性经验水平相匹配的有说服力的呼吁导致了高达40%的点击量和高达50%的购买量,而不是它们的不匹配或非个性化对手。我们的研究结果表明,心理定位的应用使得有可能通过针对目标受众的心理需求定制说服性的呼吁来影响大群人的行为。我们讨论这种方法在帮助个人做出更好的决定方面的潜在好处,以及与操纵和隐私相关的潜在缺陷。
前者在定位用户时关注的人口或行为属性可能是在下午2点至4点通过谷歌搜索“足球世界杯”的“18-45岁女性”。而心理定位,则是关注一个人的基本性格特质和心理诉求,由此能在更大的背景下解释并预测偏好。http://www.sohu.com/a/207064190_622275
Personality andWebsite Choice
我们发现,喜欢网站的偏好,比如对线下世界中的对象的偏好,受到个性的影响。 我们结合了超过160,000名用户的个性概况和网站选择,并调查不同的网站是否吸引了不同性格的受众。 我们使用两个独立的网站选择来源,显示网站受众通常具有不同的人格特征,在网站和网站类别相关的人际性和偏好之间存在着心理上有意义的关系,并且结果在独立 数据源。 我们的发现对于对网站内容个性化,文本搜索,搜索结果优化和在线营销感兴趣的研究人员非常有用。
Measurement and prediction of individual and group differences in the digital environment
博士论文
Personality and Patterns of Facebook Usage
我们展示了用户在Facebook上的活动如何与他们的个性相关,如标准的五因素模型所衡量的。 我们的数据集包括18万用户的个性概况和Facebook个人资料数据。 我们检查了用户的个性和Facebook个人资料的属性之间的相关性,例如他们的友谊网络的大小和密度,上传的照片的数量,参加的事件的数量,组成员的数量以及用户的次数 在照片中标记。 我们的研究结果显示人格特征与脸谱的各种特征之间存在显着的关系。 然后,我们将展示多元回归是如何根据他们的Facebook个人资料预测个体用户的人格特征的。 这种预测的最好的准确性是外向性和神经性的,对于宜人性来说,准确性最低,开放性和责任感处于中间。
Neil Zhenqiang Gong (ECE Department, Iowa State University)
You are Who You Know and How You Behave: Attribute Inference Attacks via Users’ Social Friends and Behaviors
我们提出新的隐私攻击来推断在线社交网络用户的属性(例如位置,职业和兴趣)。我们的攻击利用在线社会网络中看似无害的用户信息来推断目标用户的缺失属性。鉴于在线用户信息越来越多,我们的结果对于互联网隐私具有严重的影响 - 除非我们采取措施保护用户免受此类推理攻击,否则私有属性可以从用户的公开可用数据中获得。为了推断目标用户的属性,攻击利用用户公开可用的社交朋友或用户的行为记录(例如,用户在Facebook上喜欢的网页,用户在Google Play上查看的应用),但不是两者。正如我们将要显示的,这样的推理攻击实现有限的成功率。但是,如果我们考虑到社交朋友和行为记录,这个问题就会变得非常不同。为了应对这一挑战,我们开发了一种新型的模式来整合社交朋友和行为记录,并基于我们的模型设计新的攻击。我们从理论上和实验上证明了我们攻击的有效性。例如,我们观察到,在一个拥有110万用户的现实世界的大规模数据集中,我们的攻击可以正确推断57%的用户居住在城市中。通过置信度估计,如果攻击者有选择性地攻击一半用户,我们可以将攻击成功率提高到90%以上。而且,我们显示我们的攻击可以正确地推断显着的属性
AttriInfer: Inferring User Attributes in Online Social Networks Using Markov Random Fields
在属性推理问题中,我们的目标是利用在线社交网络中的公共数据来推断用户的私有属性(例如位置,性取向和兴趣)。最先进的方法利用用户的公共朋友和公共行为(例如Facebook上的页面喜好,用户在GooglePlay上查看的应用)来推断用户的私有属性。但是,这些方法存在两个关键的局限性:1)假设我们旨在使用训练数据集来推断目标用户的某个属性,他们只利用具有该属性的标签用户,而忽略用户的标签信息没有这个属性; 2)他们是低效率的,因为他们一一推断目标用户的属性。因此,它们在现实世界的社交网络中的准确性和适用性有限。在这项工作中,我们提出了一种推断用户的新方法AttriInfer
在线社交网络中的属性。 AttriInfer可以利用朋友和行为,以及具有属性和没有属性的培训用户的标签信息。具体而言,我们将社交网络建模为成对的马尔可夫随机场(pMRF)。给定一个训练数据集,该训练数据集由一些具有一定属性的用户和一些没有一定属性的用户组成,计算目标用户具有属性的后验概率,并使用后验概率推断属性。在AttriInfer的基本版本中,我们使用Loopy Belief Propagation(LBP)来计算后验概率。但是,LBP不能扩展到非常大规模的现实社交网络,并且不能保证收敛。因此,我们进一步优化了LBP的可扩展性,保证了收敛。我们评估了我们的方法,并将其与使用具有5.7M用户的真实世界的Google+数据集的最新方法进行比较。我们的研究结果表明,我们的方法在准确性和效率两方面都大大超过了最先进的方法。
吕琳媛
Toward link predictability of complex networks
真实网络的组织通常既包含规则又包含不规则性,原则上可以对前者进行建模。网络形成的程度可以说明与我们预测缺失链接的能力相一致。要了解网络组织,我们应该能够估计链路可预测性。我们假设网络的规律性反映在随机移除一小部分链接之前和之后的结构特征的一致性。基于邻接矩阵的扰动,我们提出了一个没有网络组织先验知识的通用结构一致性指标。在完全不同的现实世界网络上进行的大量实验表明:(i)结构一致性是对链路可预测性的一个很好的估计;(ii)一个导数算法在精度和鲁棒性方面优于现有技术的链路预测方法。这种分析在评估链路预测算法和监测不断变化的网络机制中的突然变化方面还有进一步的应用。它将为上述学术研究领域提供独特的基本见解,并将促进信息技术从业人员感兴趣的高级信息过滤技术的发展。
You Are Where You Go: Inferring Demographic Attributes from Location Check-ins
用户分析对许多在线服务至关重要。最近的一些研究表明,人口统计特征可以通过不同的在线行为数据来预测,比如用户在Facebook上的“喜欢”,友谊关系,以及推特的语言特征。但是,作为用户离线和在线生活的桥梁,位置登记在推断用户配置文件方面一直被忽视。在本文中,我们调查了用于推断用户人口统计的位置检查的预测能力,并提出了简单而一般的位置分析(L2P)框架。更具体地说,我们从空间性,时间性和位置知识的角度,提取用户登记的丰富语义,其中位置知识丰富了来自异构域(包括在线客户评论网站和社交网络)的语义。另外,张量因子分解被用来提取考虑到上述因素的用户固有签入偏好的低维表示。同时,所提取的特征被用来训练用于推断各种人口统计属性的预测模型。我们收集了一个由159,530个字符组成的大型数据集,
ified用户来自在线社交网络。基于这个数据集的广泛的实验结果证实:1)定位检查是各种人口统计学属性的诊断表示,例如性别,年龄,教育背景和婚姻状况; 2)所提出的框架在精度,召回率,F-measure和AUC等各种评估指标方面明显优于比较推断模型