AI大模型之语言大模型在大数据BI上的应用实践
大语言模型(Large Language Model,LLM)是自然语言处理(NLP)领域的一项关键技术,旨在理解和处理人类语言。它好比是人类的大脑,通过专业的训练可生成“机器大脑”,该大脑也可像人类一样掌握情感识别、逻辑组织、上下文理解等技能。这些技能可用于语言翻译、文本摘要、知识问答、文本生成等生活和工作中的活动场景,可辅助或替代人类来完成某些事情。目前该技术已经相当普及,在交通、金融、工业、教育等行业领域广泛应用。
不仅如此,LLM技术同时也能推动大数据产品的发展,以传统BI产品为例,基于LLM的自然语言分析能力,可解决传统BI在数据挖掘、数据决策、应用开发等方面的痛点。
先维蛰伏自研“卧龙明理”多模态大模型,将AI能力与BI能力结合,实现了chatBI功能,可以通过问答的方式自动生成代码脚本、自动推荐页面设计元素、自动推荐分析内容,解决了传统BI在开发和应用呈现上的问题。
痛点分析
传统BI工具及应用开发存在以下痛点:
1、数据维度单一,展示内容不足
传统BI应用呈现偏“制式、固化”,展示内容无法随生产业务的调整而及时变更,最终,由于这些应用展示不能满足业务变更,可能会被弃用或重新开发。
2、展示内容不直观,看不出数据问题
传统BI应用通常需要耗费很大成本定制开发数据报警规则和数据应用,以突出显示数据中存在的问题。由于很难枚举全部场景,导致数据应用页面很平庸、看不出数据问题,难以帮助用户快速、精准决策。
3、应用开发成本高,效率低
传统BI工具通常采用套模板的方式开发,这种方式需重新调整数据内容和样式布局,实际人力成本和时间成本并未显著减少。
解决方案
部署先维chatBI产品,运用产品中问答式数据探索能力和问答式应用开发功能,帮助项目快速搭建智能应用。在数据探索方面,用户可使用数据问答、问答引导、数据解读、可视化展示知识更新等功能,帮助用户快速解读数据、主动发现异常、提供优化建议,提高决策效率;在应用开发方面,用户可使用数据建模、数据开发和应用开发功能,快速构建分析主题和分析应用,提高编码的效率和质量。
先维chatBI是搭建在轻应用开发平台之上,具备传统BI开发功能,同时融入大数据、AI应用开发功能。
- 在大数据方面
先维chatBI集成了30+数据协议,具备数据建模和数据轻度治理功能,同时具备直连、联邦和内存三种计算模式,优化了chatBI数据查询分析速度,提高用户问答时的交互体验。
- 在AI应用开发方面
实现了数据问答和问答开发效果。在数据问答上采用语音/文字方式对报表、仪表板、大屏应用的数据询问,实现数据互动,帮助决策者快速了解数据整体情况、趋势情况、存在的问题,并进一步提出优化建议。在问答开发上,用户通过描述页面设计需求模型推理服务通过解析需求的意图,将其转化为可执行的SQL和应用模板配置Code。随后,平台将转化的应用模板配置Code通过程序转化成UI组件,并基于页面布局算法编排页面样式,帮助用户快速搭建应用。
技术实现
先维chatBI产品实现的总体技术路线分三层结构:数据层、解析层和应用层。
1、数据层
数据层主要提供多源数据接入能力,提供BI基础分析数据支撑。该层一般对接数据库、API、本地文件数据,数据格式通常是结构化和半结构化数据。
2、解析层
解析层是chatBI产品的技术核心,主要实现数据建模、编码推理及可视化构建功能,计算部分则依赖联邦数据查询引擎和模型推理服务。
3、应用层
应用层向用户提供应用问答和数据探索webUI框架,可同时在PC和移动端访问。该层主要将webUI框架与数据查询引擎和模型推理服务集成,向上统一接收用户问答提示词并返回结果,向下将问答提示词通过模型推理服务转化为机器语言,并交由引擎查询计算,为用户提供想要的结果数据。
以下简单介绍上述三层结构中数据建模、编码推理和可视化构建功能的技术实现思路:
- 数据建模功能
是将接入层的元数据二次建模,以星型模型或雪花模型方式构建模型关联关系,此处可使用拖拽建模和自动建模两种方式完成维度建模。首先,维度建模将复杂的业务抽象,以数据明细表或轻度汇总表的方式描述业务数据,降低了数据使用的难度。然后,基于数据标准体系规范元数据定义,消除理解歧义,提高模型的分析效率和准确性。最后,将标准的维度模型转化为可执行的SQL脚本,并封装成数据服务,交由联邦查询计算引擎调用。
- 编码推理功能
是基于模型推理服务,将用户提示词与维度模型关键词结合推理,将提示词转化为可执行的SQL语句,并将SQL语句输出到联邦查询计算引擎执行,并输出二维结构化数据,该数据将作为可视化图表的数据对象。为了提高SQL的准确性,平台提供提示词和关键词优化策略,优化策略如:限定数据分析表范围、预分析目标表的字段、预分析目标表内容、预置计算函数别名等。同时,平台也提供用户自定义的提示词与关键词关联关系映射配置,以适应不同用户提出同一提示词但含义表达不一致带来的数据查询“一致性”问题,适应不同用户的表达习惯,如:不同用户提出“星期天”提示词,有些用户想表达的是周六和周日两天,有些用户表达的则是周日一天。
- 可视化构建功能
是将用户提示词转化为图表Coding代码(如Echarts图表的option对象),从而生成柱状图、饼图、漏斗图等,甚至是GIS地图、三维图形。其实现思路是将可视化图表抽象、拆分组件、组件Schama标准化,然后将标准化的Schama组件对象定义成提示词并内置在LLM模型中。LLM模型内部通过推理用户多轮对话中的提示词,并将提示词按可视化图表编码规则转换成可执行的代码块,从而实现自动Coding。
以上便是基于语言大模型构建chatBI产品的总体技术路线,当然在实际建设过程中还有许多技术难题需要攻克,如多轮对话幻听、复杂元数据难建模等问题。
先维将继续深造“卧龙明理”大模型,持续优化chatBI系列模型,进一步提高其在数据探索、应用搭建、行业知识库构建等方面能力。在数据探索方面,持续优化异常诊断、预测分析、处理建议,提高自动探索准确性和交互体验;在应用搭建方面,持续调优Text-To-SQL、Text-To-Code精度,达到零代码快速开发应用的效果;在行业知识库方面,持续训练行业数据标准、数据指标和业务场景的数据,为用户推荐更专业的内容。