Ninegame-九游体育(中国大陆)官方网站|jiuyou.com

九游体育app娱乐忽略了页面展示的其它商品的影响-Ninegame-九游体育(中国大陆)官方网站|jiuyou.com

发布日期:2025-01-11 09:26    点击次数:87

九游体育app娱乐忽略了页面展示的其它商品的影响-Ninegame-九游体育(中国大陆)官方网站|jiuyou.com

The following article is from 阿里姆妈技艺 Author 衡言九游体育app娱乐

从"先预估后分派"的判别式步履,到胜仗面向最终拍卖末端的生成式步履,生成式模子能否为在线告白的拍卖机制优化带来握续增量?

本文先容阿里姆妈展示告白机制计谋团队在 AIGA(AI-Generated Auction)处所的前沿探索 - 生成式拍卖策划使命。

基于该项使命整理的论文已被KDD ’ 25 Research Track采取。

告白拍卖机制想象算作在线告白系统的紧迫一环,在握续优化告白主和平台收益方面起着至关紧迫的作用。传统的广义二价拍卖(GSP)等拍卖机制依赖于点击率分离假定(将告白点击率拆分为告白自己质料分和告白位曝光权重的乘积),忽略了页面中同期展示的其它商品的影响,即外部性影响。

连年来,基于深度学习的拍卖机制显耀增强了对高维高下文特征的编码才智,可是现存步履仍受限于"先预估后分派"的想象范式。这种范式只可建模参竞告白皆集内的外部性,无法捕捉最终分派末端的整页高下文信息(即排列外部性),因此难以不断到全局最优解。本文系统分析了在排列外部性影响下的最优拍卖机制,在表面最优解的基础上,策划团队建议了首个使用生成式模子建模排列外部性的告白拍卖机制 - 生成式拍卖(Contextual Generative Auction, CGA)。

该框架通过自归来模子生成告白分派末端,并将激发兼容(Incentive Compatibility, IC)条目量化为最小化过后后悔(ex-post regret),达成端到端学习最优计费端正。大限度离线实验和在线 A/B 实验标明 CGA 能显耀擢升平台收入等关节规划,同期有用靠拢表面最优拍卖的末端。

绪论

在线告白系统的最优拍卖机制旨在最大化平台祈望收入,同期赋闲经济学性质,包括激发兼容和个体感性(Individual Rationality, IR),而且需要赋闲系统在线部署的计较时延要求。IC 条目要求告白主真正报价最大化其自己遵循,IR 条目要求告白主的遵循非负。

在典型的点击计费(Cost-per-Click, CPC)多坑告白场景下,告白拍卖机制的成果依赖于对告白点击率(CTR)的预估准度。平淡使用的 GSP 等机制使用精排阶段的单点预估 CTR,忽略了页面展示的其它商品的影响。而试验场景中,用户浏览的页面包括多个商品,用户在决策前时常会对不同商品进行比较,因此同期曝光的其它商品会对办法告白的 CTR 产生影响,称为"外部性" [ 1 ] 。

基于深度学习的拍卖机制,如 Deep Neural Auction(DNA [ 2 ] )和 Score Weighted VCG(SW-VCG [ 3 ] )等使命磋议使用深度网罗描画外部性影响以擢升平台收入。干系词无论是 DNA 汲取的先预估告白 rankscore 再进行排序,照旧 SW-VCG 使用的先预估单调性分数再求解二部图最大匹配,这些步履本质上都受到"先预估后分派"(allocation-after-prediction)范式的局限,预估时的高下文信息与分派后的最终高下文信息不一致,因此模子只可捕捉到粗粒度的告白候选集层面的外部性。另一方面,Neural Multi-slot Auction(NMA [ 4 ] )等机制汲取肖似 VCG 拍卖的神色,遍历悉数可能的排列末端以求解最优分派,可是极高的计较复杂度使其难以诳骗于在线场景。

凭证 Myerson 拍卖表面 [ 5 ] ,拍卖机制的 IC 条目要求告白主得回的祈望价值对于其出价赋闲非递减关系。大多半现存步履通过保证排序公式中出价的权重为正,使得告白主提逾越价能得回调换或更前置的告白位。可是在排列外部性的影响下,即使告白候选集保握不变,将告白分派到的坑位前置反而可能导致其祈望价值下落。图 1 给出了不同告白的分坑位 [ 点击率 * 曝光率 ] (暗示 CPC 机制下的告白主祈望价值)的实验数据,二者的关系并不赋闲单调性。因此,在排列外部性影响下,奈何想象赋闲激发兼容条目的分派端正是一个非鄙俗的问题。

△图 1:告白分坑位 [ 点击率 * 曝光率 ]

本文旨在探索在排列外部性影响下,赋闲 IC 和 IR 经管的收入最大化告白拍卖机制的基本质式和高效达成。咱们率先给出系统性的表面分析,解释最优解保留 Myerson 最优拍卖的基本质式,即分派端正和计费端正不错进行解耦。在表面最优解的基础上,引入经典的生成器 - 评估器(Generator-Evaluator)架构,构建感知排列外部性的生成式拍卖。临了,进行工业数据集上的离在线实验,在多维度规划上对比现存的拍卖机制策划使命。

问题建模与表面分析

在线告白场景不错轮廓成一个典型的多坑拍卖问题。对于每条用户肯求,由个告白主(不错是手动退换出价或者自动出价代理)对    个告白位进行出价。告白主凭证自己的专有估值    提交出价   , 其中投诚价值分散  。给定出价向量 , 用户特征向量    以及悉数参竞告白的特征向量   ,平台的拍卖机制决定分派有研究    以及告白主的计费  ,其中    暗示告白    分派到告白位  。

告白拍卖中的外部性指的是竞胜告白主的遵循会受到其它竞胜告白的影响 [ 1 ] 。对于 CPC 多坑拍卖,外部性影响主要反应在告白 CTR 上。咱们用    暗示狂妄感知排列外部性的 CTR 模子,告白    的 CTR 不错暗示为  ,不错简化暗示为  。

在上述排列外部性的拍卖机制建模下,告白主    的祈望遵循为

拍卖机制的激发兼容(IC)条目要求真正报价    最大化其祈望遵循  ,个体感性(IR)条目则要求告白主遵循非负。告白拍卖机制办法为最大化平台祈望收入且赋闲 IC 和 IR 经管。

求解收入最大化机制的直不雅想法是罢免经典的 Myerson 拍卖,咱们将排列外部性引入 Myerson 拍卖,不错写成如下体式,其中    暗示经过 iron 操作后的假造价值函数(确保函数单调性):

分派端正:

 

计费端正:

 

需要介怀的是,由于排列外部性的引入,在最终分派末端中其它告白的影响下,告白主提逾越价不一定会提高最终的 CTR,因此 Myerson 表面中的"单调分派"性质在排列外部性影响下是否建造需要重新论证。咱们表面解释了上述"单调分派"的性质仍然保握,具体表述为如下引理 1,齐备解释请参考论文原文附录 A.1。

引理 1: 在排列外部性建模下,若拍卖机制的分派端正最大化祈望假造福利,则对于狂妄告白主以过头它告白主的出价向量,对于出价单调不减,或者称分派端正为单调的。

联结引理 1 和 Myerson 拍卖表面,不错解释上述引入排列外部性的 Myerson 拍卖为赋闲 IC、IR 经管且最大化平台祈望收入的最优拍卖机制,齐备推导过程请参考论文原文 2.2 节。

胜仗求解上述最优分派末端需要胪列参竞告白的悉数可能排列末端,再进行选优,胪列过程的计较复杂度为,线上场景下 ,,胪列过程的高复杂度无法赋闲线上推理实验要求。因此咱们磋议将拍卖机制进行参数化,通过数据运转的神色进行学习。为了在端到端学习的过程中赋闲 IC 经管并保握优化过程的可微性,肖似多物品拍卖的策划使命 RegretNet [ 6 ] ,咱们将机制偏离 IC 条目的进度量化为每个告白主的 ex-post regret,即告白主通过虚报出价不错得回的最大遵循增多值:

给订价值分散    中的    条采样,则告白主   的教学 ex-post regret 为

拍卖机制想象问题不错进一步改写成如下经管优化问题:

生成式拍卖

前文提到,现存的基于深度学习的拍卖机制受限于"先预估后分派"的想象范式,无法感知排列级外部性。咱们建议的生成式拍卖引入了生成器 - 评估器的基本架构,模子全体架构如图 2 所示。生成器汲取自归来模子,逐坑位感知也曾决策完成的序列信息,生成告白序列。评估器捕捉告白序列中的商品互相影响,对精排阶段的单点 pCTR 联结序列高下文信息进行校准,在测验时为生成器提供奖励信号。在线推理时,仅部署生成器,以保证线上推理时延。此外,咱们构建了 PaymentNet 模块,通过优化 ex-post regret 学习最优计费端正。

△图 2:感知排列外部性的生成式拍卖全体框架 1、生成器

凭证表面推导的最优分派体式,生成器的办法为凭证个参竞告白,生成长度为的告白序列,以最大化祈望假造福利。咱们构建的生成器包括两部分:赋闲排列不变性(permutation-invariant)的皆集编码器,以及赋闲排列同变性(permutation-equivariant)的自归来解码器。排列不变性指的是篡改模子输入元素的排列礼貌不会篡改模子输出的末端,排列同变性指的是输入元素的排列礼貌篡改会引起输出末端的排列礼貌产生调换的篡改。前者保证输入模子的参竞告白礼貌不影响分派末端,后者在自动机制想象 [ 7-9 ] 的策划使命中平淡诳骗, [ 10 ] 进一步论证了排列同变性不错擢升机制的泛化性。

皆集编码器旨在通过建模参竞皆集粒度的外部性来增强每个告白的表征。编码器率先通过 self-attention layer 编码告白 embedding 序列:再经过 sum-pooling 层和 MLP 层得到皆集粒度高下文编码:

解码器使用自归来模子建模长度为的告白序列的集合概率分散:咱们使用 GRU 单位建模参竞告白在坑位的条目概率:,第个 GRU 单位迭代式地界说为:

其中为可学习的参数,永久非负,确保更高的假造价值得回更大的分派概率,与最大化假造福利的办法保握一致。咱们接下来对在坑位之前分派的告白进行 mask 操作,并基于概率进行采样以决策分派到面前坑位的告白。一样次采样过程,得到长度为的告白序列即为最终分派末端。介怀到生成器中的 MLP 和 GRU 单位作用在每个 state-ad 对,且编码器赋闲排列不变性,因此解码器赋闲排列同变性。

2、评估器

评估器的办法为预估分派末端中每个告白的 CTR  ,进一步在测验过程中为生成器提供奖励信号。为了复用精排阶段从用户行为序列中索取的用户酷爱酷爱信息,幸免冗余建模,评估器在精排单点 pCTR 的基础上,预估排列外部性校准向量,再将二者进行逐元素相乘得到最终预估的 CTR:。模子结构上同期引入了双向 LSTM 和 self-attention 模块索取序列高下文信息,最终将团聚用户 embedding 后的表征送入 MLP 层得到外部性校准向量:具体达成细节请参考论文原文。

3、计费模块

介怀到第 2 节中表面推导的最优计费端正包括积分项

通过蒙特卡洛采样近似计较积分时,每次采样都需要调用生成器和评估器,在及时推理时的计较支拨过大。在前文中,咱们将 IC 条目改写为每个告白主的教学 ex-post regret 就是 0,这使得咱们不错通过数据运转的神色构建计费模块学习上述最优计费端正。计费模块输入包括告白分派序列的表征,出价矩阵  ,以及祈望价值向量,其中暗示生成器输出的告白分派概率,暗示评估器输出的外部性校准后的 CTR。为了赋闲 IR 条目,计费模子通过 sigmoid 激活函数输出计费比,再与出价相乘得到最终计费。

4、测验历程

凭证第 2 节中推导的论断,最优分派最大化假造福利,与计费端正无关,因此咱们在测验时将基于生成器 - 评估器架构的分派求解模块与计费模块的优化进行解耦。

咱们率先使用列表级的告白点击数据测验评估器,交叉熵赔本函数界说为:

其中    暗示用户是否点击列表    中的第    个告白,暗示评估器的外部性校准后的预估 CTR。

在评估器测验不断后,咱们冻结其参数,携带生成器测验。肖似保举系统重排使命 GRN [ 11 ] 的赔本函数想象念念路,咱们将奖励函数拆解为两部分。Self-Reward 胜仗描画每个分派的告白带来的假造福利增量,即 External-Reward 描画每个分派的告白带来的外部性影响,即

肖似 VCG 拍卖中的边缘孝顺的见解。二者相加即可得到分派告白的全体奖励函数:

其中暗示摈斥告白后的告白序列。临了,咱们使用 Policy Gradient 界说生成器的赔本函数为:

在生成器 - 评估器架构测验不断后,咱们冻结其参数,使用增广拉格朗日步履求解第 2 节临了界说的经管优化问题以优化计费模块,对违背 IC 条目施加刑事连累项,增广拉格朗日函数界说为:

计费模块的优化过程包括以下两个过程的迭代:

(1)更新计费模块的参数

(2)更新拉格朗日乘子

实验

咱们在淘宝展示告白场景的真正数据集上以及线上环境中评估生成式拍卖的有用性。对比的基线步履按照外部性建模的粒度不错分为三类:

无外部性建模:GSP 广义二价拍卖。

皆集粒度外部性建模:DNA [ 2 ] ;SW-VCG [ 3 ] 。

排列级外部性建模:基于胪列达成的 VCG 拍卖;EdgeNet [ 12 ] ;表面推导的最优拍卖机制。

1、离线实验

离线实验使用的测验集和测试集差别包括不同日历迅速采样的 50 万条和 10 万条拍卖日记,每次拍卖约有 30 个告白参竞。咱们磋议告白主出价的条目分散差别投诚均匀分散(uniform)和指数分散(exponential),在两种条目下差别进行评估。评估规划包括平台收入规划 RPM(Revenue Per Mille),CTR 以及评估机制 IC 条目的规划

算计告白主通过非真正出价粗略得回的遵循相对增量。

实验末端如表 1 所示。不错不雅察到跟着外部性建模从不磋议外部性到皆集粒度外部性,再到排列级外部性,三个规划均趋向更优。此外,介怀到与基于胪列法达成的表面最优上界比较,生成式拍卖(CGA)达到了 95% 的平台收入以及极低的值,标明生成式拍卖不错高效近似表面最优机制。

△表 1:离线对比实验。规划后的百分比增减量暗示基线步履比较 CGA 的相对值 2、在线实验

咱们在展示告白场景进行了线上 A/B 实验,基线为线上使用的 DNA [ 2 ] 机制。实验末端标明,生成式拍卖在推理时延仅增多 1.6% 的情况下,平台收入规划 RPM 提高了 3.2%,CTR 擢升 1.4%,成交 GMV 擢升 6.4%,告白主 ROI 擢升 3.5%。实验末端标明生成式拍卖带来的收入擢升不是由于胜仗举高告白主计费,而是通过感知排列级外部性优化告白分派,达成更精确的告白触达,反应于 CTR、GMV 以及告白主 ROI 的擢升。

总结

本文从告白拍卖机制中的排列级外部性影响开赴,破裂"先预估后分派"的想象范式,针对在线告白场景建议了感知排列外部性的生成式拍卖。末端标明,经典的 Myerson 拍卖在搬动到排列级外部性的体式后,仍然保握其最优性。

基于这一论断,团队想象的生成式拍卖架构将分派和计费模块解耦。在具体达成上,构建了基于生成器 - 评估器的自归来生成式结构来优化分派,并将 IC 经管量化为最小化祈望过后后悔来学习最优支付端正。工业级场景的离在线实验考据了生成式拍卖的有用性。值得介怀的是,建议的生成式拍卖框架并不局限于特定的生成式模子。

昔日的策划使命将探索引入愈加高效的生成式架构,并在拍卖机制中调处分派来自多渠说念的商品,举例当然末端与告白的交融混排。

对于团队

阿里姆妈展示告白机制计谋算法团队,悉力于于接续优化阿里展示告白技艺体系,运转业务增长,鼓舞技艺握续改进;接续升级工程架构以撑握阿里姆妈展示告白业务隆重 & 高效迭代,深挖买卖化价值并优化告白主投放成果,孵化改进居品和改进买卖化格式,优化告白生态健壮性;运出动制升级,并已迈入 Deep Learning for Mechanisms 期间,团队改进使命发表于 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等范畴有名会议。在此赤诚接待有 ML 配景的同学加入!

alimama_tech@service.alibaba.com

参考文件

[ 1 ] Arpita Ghosh and Mohammad Mahdian. Externalities in online advertising. WWW ’ 08.

[ 2 ] Xiangyu Liu, Chuan Yu, Zhilin Zhang, Zhenzhe Zheng, Yu Rong, Hongtao Lv, Da Huo, Yiqing Wang, Dagui Chen, Jian Xu, Fan Wu, Guihai Chen, and Xiaoqiang Zhu. Neural auction: End-to-end learning of auction mechanisms for e-commerce advertising. KDD ’ 21.

[ 3 ] Ningyuan Li, Yunxuan Ma, Yang Zhao, Zhijian Duan, Yurong Chen, Zhilin Zhang, Jian Xu, Bo Zheng, and Xiaotie Deng. Learning-Based Ad Auction Design with Externalities: The Framework and A Matching-Based Approach. KDD ’ 23.

[ 4 ] Guogang Liao, Xuejian Li, Ze Wang, Fan Yang, Muzhi Guan, Bingqi Zhu, Yongkang Wang, Xingxing Wang, and Dong Wang. 2022. NMA: Neural Multi-slot Auctions with Externalities for Online Advertising. arXiv preprint arXiv:2205.10018 ( 2022 ) .

[ 5 ] Roger B Myerson. 1981. Optimal auction design. Mathematics of operations research 6, 1 ( 1981 ) , 58 – 73.

[ 6 ] Paul D ü tting, Zhe Feng, Harikrishna Narasimhan, David Parkes, and Sai Srivatsa Ravindranath. Optimal auctions through deep learning. ICML ’ 19.

[ 7 ] Zhijian Duan, Haoran Sun, Yurong Chen, and Xiaotie Deng. A scalable neural network for dsic affine maximizer auction design. NeurIPS ’ 24.

[ 8 ] Dmitry Ivanov, Iskander Safiulin, Igor Filippov, and Ksenia Balabaeva. Optimal-er auctions through attention. NeurIPS ’ 22.

[ 9 ] Jad Rahme, Samy Jelassi, Joan Bruna, and S Matthew Weinberg. A permutation-equivariant neural network architecture for auction design. AAAI ’ 21.

[ 10 ] Tian Qin, Fengxiang He, Dingfeng Shi, Wenbing Huang, and Dacheng Tao. Benefits of permutation-equivariance in auction mechanisms. NeurIPS ’ 22.

[ 11 ] Yufei Feng, Binbin Hu, Yu Gong, Fei Sun, Qingwen Liu, and Wenwu Ou. 2021. GRN: Generative Rerank Network for Context-wise Recommendation. arXiv preprint arXiv:2104.00860 ( 2021 ) .

[ 12 ] Guangyuan Shen, Shengjie Sun, Dehong Gao, Duanxiao Song, Libin Yang, Zhen Wang, Yongping Shi, and Wei Ning. EdgeNet: Encoder-decoder generative Network for Auction Design in E-commerce Online Advertising. CIKM ’ 23.

* 本文系量子位获授权刊载,不雅点仅为作家悉数。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 跟踪 AI 技艺和居品新动态

一键三连「共享」、「点赞」和「在看」

科技前沿发挥日日相遇 ~