论文标题:Neural Input Search for Large Scale Recommendation Models
论文解读人:爱晒太阳的小白猫
文章动机:运用AutoML技术来优化input representation layer。自动选取sparse input(比如类别特征)的vocab_size和embedding_dim,从而优化模型性能。
模型介绍:
定义:对于每个类型特征F,我们有一个list of 可能的value,我们把所有value map成integer,这个integer list叫做vocab。(举个例子,比如我们有一个特征年龄;10–18岁map到1,18–30岁map到2,30岁-45岁map到3。[1, 2, 3]就是特征年龄的vocab。)
我们会将特征转换成shape是[vocab_size, embedding_dim]的embedding。C是指memory budget。
Single-Size Embedding: 常规的vocab_size * embedding_dim大小的embedding。对于此类优化,我们会寻找在memory budget之内最优化的解法。
Multi-Size Embedding: 允许vocab里每一个item有不同的embedding size。允许对head item用大embedding,tail item用小embedding。MES is a list of pairs: [(v1, d1), (v2, d2), …].
AutoML会寻找
Search Approach
讲了如何定义building block,定义controller,定义reward。在training的时候,先保证所有的embedding blocks都能得到一定的training来warm up。接着用A3C算法来预测各个choice的reward。baseline model和controller有相同的网络结构和不同的variables。接着计算advantages,用以train controller。
实验
在query suggest和app install的模型中做了实验,均证明提出方法有效。ME比SE效果要好。
总结
提出了Neural Input Search并介绍了Multi-size Embedding. 在没有增加# of parameters的前提下,提高了6.8% recall@1和1.8% roc-auc。