想要准确预测𝑝𝐶𝑉𝑅很难,从量和质两个方面来看:

  1. 数据量少:转化一般都是指注册、下单、付费等等行为,这种用户成本较高的行为天然就是稀疏的。为了提升样本量,我们使用ESMM这种依赖式建模的方法,使用全部样本空间;
  2. 数据质量低:这里主要指的就是延迟转化(Delayed Feedback)引发的label是有偏的。举例来说,某用户点击广告下载了XX手游,自律的他准备周末才注册游玩;或者,某用户点击广告把商品加入购物车,但是准备N天以后统一下单等等。从模型训练角度看:T+1更新的模型,昨天点击的行为,今天收集日志,后天才转化,数据不可能回刷到后天,今天的训练模型就将CVR=1误判成CVR=0了;一句话总结:链路较深的转化行为,实时数据的label大概率是不准确的,必须要等待一段时间直到label可信;

我们主要讨论延迟转化的问题,业界有如下几种方案:

第一种方案,将延迟转化问题看成is_deal和deal_time两个问题;

第二种方案,保持模型不变,但针对反馈延迟导致的样本标记分布偏差,通过在损失函数中进行正负样本的加权来纠偏;

  1. 作为一个多目标问题建模,而具体如何拆解这两个目标,下文列举两个有代表性的方案:
    1. **DFM:将延迟转化问题拆解为“是否转化,转化时间预估”**两个目标建模,代表论文为Criteo的“Modeling Delayed Feedback in Display Advertising”
    2. 将延迟转化问题拆解为“第1天是否转化,...,第N天是否转化”这样几个问题多目标建模,即将整个转化回流的时间窗口分成N段利用Muti-task训练N个模型来预估这N个时间段上的转化概率,代表论文为Google的“Handling many conversions per click in modeling delayed feedback”
  2. 正负样本加权:
    1. 重要性采样:

      Untitled

    2. FNW/FNC/ES-DFM/DEFER

      上述文章都是在重要性采样的基础上进行改进

参考:

zhuanlan.zhihu.com

zhuanlan.zhihu.com