项目开始时间: 2025/06/09 (a)

最新更新时间: 2025/06/09 (b)

项目成员: yyz

推荐系统

本篇主要探讨 大模型的进步推荐系统的新推动

推荐系统发展历史

  • Grundy - 1979,
    • 问答形式,系统问人的标签,推荐对应的内容
  • 基于记忆的协同过滤(CF) - 1992-2005, 数学计算
    • 基于用户的协同过滤 UserCF (人以群分)
    • 基于内容的协同过滤 ItemCF (物以类聚)
  • 基于模型的协同过滤 矩阵分解
    • 改进MF, ALS, WALS
    • 逻辑回归为基础,衍生的FM, FFM
  • 深度学习 - 2016 - 至今
    • Word2Vec
    • Transformer4Rec
    • 强化学习
    • 大模型

传统推荐模型

协同过滤

基本思想:人以类聚、物以群分 核心:相似度计算

相似度计算方式 杰卡德相似度 余弦相似度 皮尔逊相关系数 欧式距离….

UserCF 基于User的协同过滤

步骤:

  1. 计算目标用户和其他用户的相似度
  2. 根据相似度高的用户计算目标用户对某物品的最终得分
  3. 根据得分高低 决定是否向用户推荐该物品

缺点:①矩阵稀疏,推荐效果差 ②存储开销大

ItemCF 基于Item的协同过滤

相似度计算方法:知识图谱、用户的行为(两个物品的受重重合度越高,两个物品越相似)

步骤:

  1. 计算目标物品和其他物品的相似度,找到目标物品相似度高的其他物品

机器学习项目步骤

  1. 了解需求
  2. 了解上下游
  3. 确定目标
  4. 整合资源、确定框架
  5. 数据清洗 & ETL
  6. 数据探索
  7. 建模 & 调参
  8. 结果展示
  9. 应用
  10. 结果 & 反馈

技术栈

  • Hadoop
    • 存储大量历史数据 (点击记录、购买记录、浏览历史)
  • Spark
    • 数据预处理、特征工程和训练推荐模型
    • 协同过滤等算法的使用
  • Zookeeper
    • 协调服务
  • Flume
    • 实时收集数据流,可以从不同来源收集用户行为数据
  • Hive
    • 查询、数据管理、简单分析
  • Sqoop
    • 在Hadoop和关系型数据库之间传输数据
  • Flask
    • 可视化

实战

参考文献

经典算法之协同过滤 UserCF & ItemCF

召回01:基于物品的协同过滤(ItemCF)