项目开始时间: 2025/06/09 (a)
最新更新时间: 2025/06/09 (b)
项目成员: yyz
推荐系统
本篇主要探讨 大模型的进步对推荐系统的新推动
推荐系统发展历史
- Grundy - 1979,
- 问答形式,系统问人的标签,推荐对应的内容
- 基于记忆的协同过滤(CF) - 1992-2005, 数学计算
- 基于用户的协同过滤 UserCF (人以群分)
- 基于内容的协同过滤 ItemCF (物以类聚)
- 基于模型的协同过滤 矩阵分解
- 改进MF, ALS, WALS
- 逻辑回归为基础,衍生的FM, FFM
- 深度学习 - 2016 - 至今
- Word2Vec
- Transformer4Rec
- 强化学习
- 大模型
传统推荐模型
协同过滤
基本思想:人以类聚、物以群分 核心:相似度计算
相似度计算方式 杰卡德相似度 余弦相似度 皮尔逊相关系数 欧式距离….
UserCF 基于User的协同过滤
步骤:
- 计算目标用户和其他用户的相似度
- 根据相似度高的用户计算目标用户对某物品的最终得分
- 根据得分高低 决定是否向用户推荐该物品
缺点:①矩阵稀疏,推荐效果差 ②存储开销大
ItemCF 基于Item的协同过滤
相似度计算方法:知识图谱、用户的行为(两个物品的受重重合度越高,两个物品越相似)
步骤:
- 计算目标物品和其他物品的相似度,找到目标物品相似度高的其他物品
机器学习项目步骤
- 了解需求
- 了解上下游
- 确定目标
- 整合资源、确定框架
- 数据清洗 & ETL
- 数据探索
- 建模 & 调参
- 结果展示
- 应用
- 结果 & 反馈
技术栈
- Hadoop
- 存储大量历史数据 (点击记录、购买记录、浏览历史)
- Spark
- 数据预处理、特征工程和训练推荐模型
- 协同过滤等算法的使用
- Zookeeper
- 协调服务
- Flume
- 实时收集数据流,可以从不同来源收集用户行为数据
- Hive
- 查询、数据管理、简单分析
- Sqoop
- 在Hadoop和关系型数据库之间传输数据
- Flask
- 可视化