随着小红书社区电商业务的发展,营销类型不断丰富,覆盖的用户及场景随之增加,黄牛的抢购手段也逐渐复杂多样。除了长期存在的同人聚集性购买热销商品的方式,还衍生出了众包形式的抢购——即通过邀请真人用户代为购买让利商品,转寄继而到货后转账的方式来获取货物和差价收益。
此类黄牛行为不仅会给平台带来损失,还会持续影响普通用户以及商家的权益。为保护用户和商家的利益,小红书反作弊团队一直在持续地通过各种手段与黄牛进行对抗,并从中沉淀出了高效、可执行、可实现的图计算算法模型。
在进行对抗之前,我们需要先明确对抗的对象是谁,以及将面临的难点有哪些:
- 黄牛常以团伙形式出现,这要求我们除了要注意被购买商品上的明显聚集特征外,还需使用其他特征精准判断用户身份。
- 黄牛用户主要有两大类:
- 同人类黄牛:通过大批量注册、买卖账号囤积资源,定期运营,在交易时会通过切换账号来规避风控拦截。
- 众包类黄牛:通过分发任务的模式进行交易,账户真实性高,从设备或行为上较与正常用户的区别较小,难以区分。
- 电商业务变化较快,黄牛所针对的商品类型及作弊手段也在不断变化,反作弊需要不断优化并且更新方式,在满足业务精细化需求的同时防止新型黄牛手段的攻破。
Q:为什么使用图计算?
A:在回答这个问题之前,我们可以先了解什么是图。图是由一组节点与一组能够将两个节点相连的边组成的,节点间建立的边可以描述不同的关联关系。比如在电商场景中,存在购买用户与商品两个不同属性的节点,其间的边可以代表着用户的浏览关系、购买关系与点评关系等;而用户在交易中使用的手机号、设备等又可以作为不同属性的节点与购买者相连,并通过边来描述其使用或持有关系,这种关系可以通过图数据结构存储下来,在电商推荐、搜索、风控等多哥领域实现大数据分析与模型训练。图计算的优势主要在于:
1. 图数据结构所能存储的数据特征维度更加丰富:相较于传统表式存储更能描述不同主体间复杂的关联关系,在电商领域中更能凸显作弊群体内以及不同群体间的关联关系,使这些关联更直接,更直观,也更易于理解。
2. 图数据库的查询与分析效率更高,性能更优:比如在社交关系型数据中,随着社交关系的深度(即朋友的朋友)越深,关系型数据库与图数据库的查询性能相差越大。
3. 图数据库能够更加方便地使用数据进行建模:图数据库的重要性往往体现在当前电商交易场景中重要的“数据关系”上,和人际关系一样,数据的价值也在于它们之间的关联关系上。相较于单纯的节点数据分析,这种关系数据的建模分析往往能带来更多增益。
Q:我们怎么使用图计算来预防和对抗黄牛风险?
A:之前已经介绍了主要的两类黄牛风险:同人黄牛与众包黄牛。我们团队分别从这两类黄牛风险的作弊特征出发,设计了两种针对的性的图计算模型。
2.1 电商同人黄牛图算法
同人黄牛图的设计理念:在平台交易对抗中,同人黄牛用户经常会通过特别手段更换资源来绕过传统策略,并且在交易时的特征维度存在多跳关系,策略的局限性会被放大;且交易链路对时效性的要求极高,我们更需要实时地识别账号或行为间具有聚集性的黑产并打击,以保障平台商家与用户的交易安全。为了应对这种挑战,我们开发一种表现更直观,可描述性更强且具有实时迭代能力的黄牛图算法,并通过以下流程进行构建:
1. 通过线上数据对 Kafka 交易行为日志实时消费,并通过反序列化方式提取用户 UID、 设备指纹参数、IP 地址、商品 ID 等信息。
2. 将对象作为不同节点并构建其间的边,在这种建立节点与边的过程中赋予其内在多维度特征,并将这种异构拓扑关联图谱写入 Nebula 图数据库,建边方式包含但不限于:
a.用户注册、登录行为中的绑定关系 e.g.:用户→ 绑定账号等。
b.用户交易行为中的使用关系 e.g.:用户→ 设备、IP等。
c.用户交易行为中的购买关系 e.g.:用户→ 商品、商家等。
利用这种关系图谱,我们可以实时多跳关联抽样子图并进行强实体挖掘与弱标签传播等方式来发现同人黄牛群体,并将异常群体更新至风险种子库来实时保障交易安全。
2.2 电商众包黄牛社群发现算法
Q:什么是社区发现算法?
A:社区发现算法基于模块度(Modularity),通过不断遍历邻居结点并将自己的社区标签更新为模块度增量最大的邻居标签直至不再有增益,从而找到每个节点所属的社区。
Q:怎么使用社区发现算法来对抗众包黄牛?
A:针对电商场景中具有团伙聚集性质的众包黄牛购买行为,我们利用社区发现算法建立了电商异常社群发现模型,通过用户与其购买的商品之间的关系建边,构建用户与用户之间的二部图。在模型的建立过程中我们使用数据预处理过滤了对模型影响较大的异常数据,并使用自定义距离算法来量化用户之间在购买上的相似度:
其中k表示两用户共同购买的商品数目,CA与CB分别表示对应用户购买商品数量,Wpurchase与Wreceive分别表示用户购买与收货相似度,并随着时间窗口与是/非大促期间自适应变化,R(A,B)越高表示用户购买相关性越大,对应建边权重越大,由此构建用户间购买关系。
通过建立的用户购买关系图,我们使用社群发现算法进行社群归并,得到被划分的社群后,进一步对不同社群用户进行特征描述并自动筛查,从而获得真正想要找到的可疑度较高的众包黄牛用户与团伙。
除了前文主要介绍的两类图算法,小红书反作弊团队仍在持续沉淀并研发多种对抗黄牛的手段。比如我们针对众包黄牛的特点,利用黄牛团伙邀请真人用户的流程,在技术层面设计了一整套识别、拦截和数据沉淀的流程,通过用户标注——>拦截——>识别商品——>沉淀商品和用户数据——>回扫确定风险用户——>更新标注形成一个闭环的监控,这套流程帮助我们根据拦截率制定预警,使我们能够实时监控并及时发现抢购情况,后续我们还将利用它沉淀用户黑产画像、让利商品和黄牛地址等多维数据。
在业务层面上,我们根据商品类型、售卖模式制定了个性化限购方案——通过了解商家对具体商品的限购业务逻辑,针对直播间的让利营销,抽象出不同类别的限购需求,再结合hammurabi风控引擎,构建累计因子,定制限购的风控策略,同时持续与业务交互,以实现精细化运营。这类型的风控方式不需要依赖于用户间的关联关系,而是利用沉淀的数据做纵向拦截,与图算法模型形成互补。
傅达 小红书安全技术部算法工程师
老皮 小红书安全技术部数据分析师
时影 小红书安全技术部产品经理
来源:微信公众号:小红书技术REDtech
出处:https://mp.weixin.qq.com/s/FgXnQag0szUE4E-7AtAl-w
暂无评论内容