Skip to content

Latest commit

 

History

History
# 方案简介
本项目通过关键词识别用户意图,将用户问题分为文档检索理解和SQL查询回答两部分。
SQL查询采用Text2Sql方案,基于通义金融14B大模型Fineturn一个Lora模型,用来记住sql的表格信息和常用的sql语句表达式,然后再基于模板检索的方式回答问题;
文档检索理解部分两步召回招股书文档和关键材料,然后再基于通义金融14B大模型抽取答案回答问题。

# 技术路线
1. 问题分类:
根据问题关键字识别用户意图,分别调用Text2Sql模块或者文档检索理解模块

2. Text2Sql模块:
基础模型: Tongyi-Finance-14B-Chat-Int4
微调数据:基于模型生成+人工标注
模型优化: 基于modelscope-swift框架训练lora模型
Prompt设计:基于模板检索的方法,根据问题查找相似模板作为prompt一部分
              设计SQL出错重试机制,并基于多线程封装sqlite查询避免超时

3. 文档检索理解部分:
模型选择:   Tongyi-Finance-14B-Chat
文档数据库:从文档中抽取公司名称作为Key,基于langchain做文档分片构建数据库
检索算法:   用户问题关键词召回,文本相关性排序取TOPN文档分片
Prompt设计: TOPN文档分片信息抽取回答问题