基于Spark和RAG的个性化AI开发
Author - yyz Create Time - 2024/06/23 Last Update Time - 2024/06/23 Spark Embedding 数据源大小:24GB 1 数据获取与清洗与转换, 序列化 开始的处理方式是以词为单位,可这样使得上下文联系不强 后续又使用标题#的标识为分隔符,这样处理时每句话的联系都可以找到,但每句话中的信息有时候无法得到 ...
Author - yyz Create Time - 2024/06/23 Last Update Time - 2024/06/23 Spark Embedding 数据源大小:24GB 1 数据获取与清洗与转换, 序列化 开始的处理方式是以词为单位,可这样使得上下文联系不强 后续又使用标题#的标识为分隔符,这样处理时每句话的联系都可以找到,但每句话中的信息有时候无法得到 ...