# 学习路线

# 阶段 1:推荐系统入门

目标:理解推荐系统基础流程,先实现 baselinebaseline

  • 学习内容:
    • 推荐系统三步骤:召回 → 排序 → 重排序
    • 协同过滤(UserCFUserCFItemCFItemCF)✅
    • 基于 EmbeddingEmbedding 的相似度检索(Word2VecWord2Vec)✅
  • 任务:
    • ItemCF 给用户推荐文章(TopN 推荐)。
    • Word2Vec(gensim 库) 学习文章 EmbeddingEmbedding,基于相似度推荐文章。
    • 学习评估指标:Recall@KRecall@KNDCG@KNDCG@K

# 阶段 2:图推荐(2-3 周)

目标:学会用图神经网络做召回。

  • 学习内容:
    • 图神经网络基础:GCN、GraphSAGE、GAT 的思想✅
    • PinSage(Pinterest 工业界图推荐模型)
    • PyTorch Geometric(PyG)/ DGL 使用
  • 任务:
    • 构建 用户–文章二分图(节点:user, article;边:点击行为)。
    • GraphSAGE 学习用户和文章 embedding。
    • Faiss 做近邻检索,实现召回。

# 阶段 3:序列推荐(2-3 周)

目标:建模用户兴趣随时间的演化。

  • 学习内容:
    • RNN/LSTM 在推荐中的缺陷(长依赖不行)✅
    • Transformer 基础(Self-Attention, Masked LM)✅
    • SASRec(单向 Transformer)
    • BERT4Rec(双向 Transformer)
  • 任务:
    • 组织用户点击序列(按时间排序,padding、masking)。
    • 训练 SASRec 预测用户下一个点击文章。
    • 对比效果:SASRec vs Word2Vec/GraphSAGE。

# 阶段 4:融合与实验(2 周)

目标:把图推荐 + 序列推荐结合,做 Hybrid 推荐系统。

  • 学习内容:
    • 特征拼接(GNN embedding + 序列 embedding)
    • 排序模型:LightGBM / MLP
    • rerank 策略(多样性、新鲜度)
  • 任务:
    • 把两类 embedding 拼接,输入 LightGBM 排序。
    • 加入文章特征(类别、发布时间、字数)。
    • 实验对比:
      • baseline (ItemCF/Word2Vec)
      • GNN 召回
      • Transformer 排序
      • Hybrid

# 阶段 5:总结与展示(1 周)

目标:能清晰表达项目,准备展示 / 答辩 / 面试。

  • 学习内容:
    • 如何画推荐系统架构图(ppt/visio/draw.io)
    • 如何展示实验结果(表格、曲线图)
    • 如何讲项目改进点和未来方向
  • 任务:
    • 输出 完整实验报告(包含 pipeline、模型原理、实验结果、对比表格)。
    • 画出 推荐系统架构图
    • 总结未来改进方向:冷启动、多样性、实时推荐等。

  1. 自己训练歌曲的表示向量 embedding(这就要求我有歌曲的部分数据)
  2. 需要图推荐 + 序列推荐结合,做 Hybrid 推荐系统。