# 学习路线
# 阶段 1:推荐系统入门
目标:理解推荐系统基础流程,先实现
- 学习内容:
- 推荐系统三步骤:召回 → 排序 → 重排序 ✅
- 协同过滤(,)✅
- 基于 的相似度检索()✅
- 任务:
- 用 ItemCF 给用户推荐文章(TopN 推荐)。
- 用 Word2Vec(gensim 库) 学习文章 ,基于相似度推荐文章。
- 学习评估指标:、。
# 阶段 2:图推荐(2-3 周)
目标:学会用图神经网络做召回。
- 学习内容:
- 图神经网络基础:GCN、GraphSAGE、GAT 的思想✅
- PinSage(Pinterest 工业界图推荐模型)
- PyTorch Geometric(PyG)/ DGL 使用
- 任务:
- 构建 用户–文章二分图(节点:user, article;边:点击行为)。
- 用 GraphSAGE 学习用户和文章 embedding。
- 用 Faiss 做近邻检索,实现召回。
# 阶段 3:序列推荐(2-3 周)
目标:建模用户兴趣随时间的演化。
- 学习内容:
- RNN/LSTM 在推荐中的缺陷(长依赖不行)✅
- Transformer 基础(Self-Attention, Masked LM)✅
- SASRec(单向 Transformer)
- BERT4Rec(双向 Transformer)
- 任务:
- 组织用户点击序列(按时间排序,padding、masking)。
- 训练 SASRec 预测用户下一个点击文章。
- 对比效果:SASRec vs Word2Vec/GraphSAGE。
# 阶段 4:融合与实验(2 周)
目标:把图推荐 + 序列推荐结合,做 Hybrid 推荐系统。
- 学习内容:
- 特征拼接(GNN embedding + 序列 embedding)
- 排序模型:LightGBM / MLP
- rerank 策略(多样性、新鲜度)
- 任务:
- 把两类 embedding 拼接,输入 LightGBM 排序。
- 加入文章特征(类别、发布时间、字数)。
- 实验对比:
- baseline (ItemCF/Word2Vec)
- GNN 召回
- Transformer 排序
- Hybrid
# 阶段 5:总结与展示(1 周)
目标:能清晰表达项目,准备展示 / 答辩 / 面试。
- 学习内容:
- 如何画推荐系统架构图(ppt/visio/draw.io)
- 如何展示实验结果(表格、曲线图)
- 如何讲项目改进点和未来方向
- 任务:
- 输出 完整实验报告(包含 pipeline、模型原理、实验结果、对比表格)。
- 画出 推荐系统架构图。
- 总结未来改进方向:冷启动、多样性、实时推荐等。
- 自己训练歌曲的表示向量 embedding(这就要求我有歌曲的部分数据)
- 需要图推荐 + 序列推荐结合,做 Hybrid 推荐系统。