app
Folders and files
Name | Name | Last commit date | ||
---|---|---|---|---|
parent directory.. | ||||
# 方案简介 本项目通过关键词识别用户意图,将用户问题分为文档检索理解和SQL查询回答两部分。 SQL查询采用Text2Sql方案,基于通义金融14B大模型Fineturn一个Lora模型,用来记住sql的表格信息和常用的sql语句表达式,然后再基于模板检索的方式回答问题; 文档检索理解部分两步召回招股书文档和关键材料,然后再基于通义金融14B大模型抽取答案回答问题。 # 技术路线 1. 问题分类: 根据问题关键字识别用户意图,分别调用Text2Sql模块或者文档检索理解模块 2. Text2Sql模块: 基础模型: Tongyi-Finance-14B-Chat-Int4 微调数据:基于模型生成+人工标注 模型优化: 基于modelscope-swift框架训练lora模型 Prompt设计:基于模板检索的方法,根据问题查找相似模板作为prompt一部分 设计SQL出错重试机制,并基于多线程封装sqlite查询避免超时 3. 文档检索理解部分: 模型选择: Tongyi-Finance-14B-Chat 文档数据库:从文档中抽取公司名称作为Key,基于langchain做文档分片构建数据库 检索算法: 用户问题关键词召回,文本相关性排序取TOPN文档分片 Prompt设计: TOPN文档分片信息抽取回答问题