多方面关注机制的图神经网络运用于线上社交媒体的用户定位 Innocentius | PhD Candidate In Management Science

原标题:Multiple-Aspect Attentional Graph Neural Networks for Online Social Network User Localization

作者:Ting Zhong, Tianliang Wang, Jiahao Wang,Jin Wu, and Fan Zhou.(成都电子科技大学)

引用:Zhong, T., T. Wang, J. Wang, J. Wu, and F. Zhou. “Multiple-Aspect Attentional Graph Neural Networks for Online Social Network User Localization.” IEEE Access 8 (2020): 95223–34. https://doi.org/10.1109/ACCESS.2020.2993876.

摘要(简):识别线上社交媒体用户的物理位置(即User Geolocation, UG)是绝大多数以地理位置为本的应用必须完成的任务,比如说广告服务、社会活动感知、紧急时位置识别,等等。由于用户通常不希望泄露自身的隐私信息,绝大多数用户不会用Geotag的方式公布自己的地理位置。近期的研究指出可以合并用户生成信息(文字、公开档案等)与网上社交联系从而判别用户的地理位置。尽管发展迅速,先前的方法依赖于文字的相似度和与用户连接较紧密的节点的地理位置信息,产生如下几个问题:其一、网络表征学习的地理不可知性极大降低了原先方法的准确性;其二、预测结果的低可理解性导致了原先方法的原理理解和进一步改进的极大难度。本文提出了多方面关注机制的图神经网络(MAGNN),以提取多维度信息的多方面特征。

Review:

发表在IEEE Access,尽管说这可以说是一篇纯方法论的文章,但是其Literature Review可以说是比较完整的记录了目前(2020-21年)用户地理位置/信息的研究现况。目前主流的试图检视用户地理位置的研究一般采用以下几种方法:

(1)基于用户生成数据(User Generated Contents)的定位。用户有的时候会公开一些带有地理位置信息(GeoTag)的信息,比方说:带有地理位置的照片,选择公开自己场所的推特,提到地理位置的内文,等等。可想而知,这些信息并不是最可靠的:用户选择性的公开的带有地理位置的照片通常不会在自身最经常所在的位置拍摄(比方说旅游照片);在推特中选择公开自己的场所一般是在自己并不熟悉的场所时所做的行为;提到地理位置则更不可信。可想而知,研究者一般希望能有多个这样的信息以提升准确率。然而,作者也点出只有不到1%的信息带有这样的地理位置信息,这意味着只有最重度使用社交媒体的用户才能被以这种方式定位(然而这种用户的定位本身已经非常容易,等于什么都没解决),同时绕过这种定位方法也太过容易(发一些虚假的地理位置,或者干脆不发/掩盖自己的地理位置就可以了)。

(2)基于社交网络分析的定位。这个方法假定与一个用户A有较多联系的其他用户B,C,D…通常在地理位置上与A更近。如果与A在社交网络相近的用户经常发布自己的地理位置的话,那么A的地利位置也可以依此判断。显然,这个假定并不适用于所有社交媒体平台。Facebook的朋友圈可能与用户自身的朋友圈更相近,但是Twitter的Follower/Followee系统很可能并不是自己现实生活中的朋友;Linkedin的朋友可能是和自己工作相关的同事,但是对于很多通勤的工作族来说这种方式获取的地利位置可能并不是很准确;至于4chan、reddit这种以匿名用户为主的社交媒体更不可能明确的体现出用户现实生活中的社交网络。

(3)基于隐性Metadata的定位。这个方法会使用一些一般用户通常不会/无法更改的元数据,比如一些社交媒体记录的时区,发推文的时间频率(一般用户不发推文的时候是睡觉的时候),等等。这让我联想到现在各种为了售卖VPN所打的各种广告,指出各种用户自身没有进行掩盖的蛛丝马迹。

我们首先需要认清的是,实际上,我们目前进行的定位在绝大程度上是为了定位宏观上的普通用户而不是特定的用户。与VPN的道理相同,如果用户试图掩盖自己的行踪,用户可以使用各种方法去掩盖,甚至可以选择不使用网上社交媒体。特定的,试图掩盖自己行踪的用户的定位应该交给专门的追踪方式,而不是去设计100%准确的泛用追踪方式,那样只能陷入“道高一尺、魔高一丈”的无限循环。社交媒体的用户定位从根本上不应当以“完全的准确性”为目标,而是以尽量覆盖基本的用户群体为目标。那么我们今后研究的发展方向也就比较清楚了。与其去追随用户的隐性元数据,不如试图去扩大探索用户生成信息中的隐性地点特征(比如说地域特定的语言用法,信息,等等)。

至于本篇文章所更新的方法,并不重要,如果有需要,直接去看文章吧。