# 学习路线

# 阶段 1：推荐系统入门

目标：理解推荐系统基础流程，先实现 $baseline$

学习内容：
- 推荐系统三步骤：召回 → 排序 → 重排序 ✅
- 协同过滤（ $UserCF$ ， $ItemCF$ ）✅
- 基于 $Embedding$ 的相似度检索（ $Word2Vec$ ）✅
任务：
- 用 ItemCF 给用户推荐文章（TopN 推荐）。
- 用 Word2Vec（gensim 库） 学习文章 $Embedding$ ，基于相似度推荐文章。
- 学习评估指标： $Recall@K$ 、 $NDCG@K$ 。

# 阶段 2：图推荐（2-3 周）

目标：学会用图神经网络做召回。

学习内容：
- 图神经网络基础：GCN、GraphSAGE、GAT 的思想✅
- PinSage（Pinterest 工业界图推荐模型）
- PyTorch Geometric（PyG）/ DGL 使用
任务：
- 构建 用户–文章二分图（节点：user, article；边：点击行为）。
- 用 GraphSAGE 学习用户和文章 embedding。
- 用 Faiss 做近邻检索，实现召回。

# 阶段 3：序列推荐（2-3 周）

目标：建模用户兴趣随时间的演化。

学习内容：
- RNN/LSTM 在推荐中的缺陷（长依赖不行）✅
- Transformer 基础（Self-Attention, Masked LM）✅
- SASRec（单向 Transformer）
- BERT4Rec（双向 Transformer）
任务：
- 组织用户点击序列（按时间排序，padding、masking）。
- 训练 SASRec 预测用户下一个点击文章。
- 对比效果：SASRec vs Word2Vec/GraphSAGE。

# 阶段 4：融合与实验（2 周）

目标：把图推荐 + 序列推荐结合，做 Hybrid 推荐系统。

学习内容：
- 特征拼接（GNN embedding + 序列 embedding）
- 排序模型：LightGBM / MLP
- rerank 策略（多样性、新鲜度）
任务：
- 把两类 embedding 拼接，输入 LightGBM 排序。
- 加入文章特征（类别、发布时间、字数）。
- 实验对比：
  - baseline (ItemCF/Word2Vec)
  - GNN 召回
  - Transformer 排序
  - Hybrid

# 阶段 5：总结与展示（1 周）

目标：能清晰表达项目，准备展示 / 答辩 / 面试。

学习内容：
- 如何画推荐系统架构图（ppt/visio/draw.io）
- 如何展示实验结果（表格、曲线图）
- 如何讲项目改进点和未来方向
任务：
- 输出 完整实验报告（包含 pipeline、模型原理、实验结果、对比表格）。
- 画出 推荐系统架构图。
- 总结未来改进方向：冷启动、多样性、实时推荐等。

自己训练歌曲的表示向量 embedding（这就要求我有歌曲的部分数据）
需要图推荐 + 序列推荐结合，做 Hybrid 推荐系统。

推荐系统协同过滤