AI大模型之语言大模型在大数据BI上的应用实践

发布时间：2024-10-29 17:38:44

大语言模型（Large Language Model，LLM）是自然语言处理（NLP）领域的一项关键技术，旨在理解和处理人类语言。它好比是人类的大脑，通过专业的训练可生成“机器大脑”，该大脑也可像人类一样掌握情感识别、逻辑组织、上下文理解等技能。这些技能可用于语言翻译、文本摘要、知识问答、文本生成等生活和工作中的活动场景，可辅助或替代人类来完成某些事情。目前该技术已经相当普及，在交通、金融、工业、教育等行业领域广泛应用。

不仅如此，LLM技术同时也能推动大数据产品的发展，以传统BI产品为例，基于LLM的自然语言分析能力，可解决传统BI在数据挖掘、数据决策、应用开发等方面的痛点。

先维蛰伏自研“卧龙明理”多模态大模型，将AI能力与BI能力结合，实现了chatBI功能，可以通过问答的方式自动生成代码脚本、自动推荐页面设计元素、自动推荐分析内容，解决了传统BI在开发和应用呈现上的问题。

痛点分析

传统BI工具及应用开发存在以下痛点：

1、数据维度单一，展示内容不足

传统BI应用呈现偏“制式、固化”，展示内容无法随生产业务的调整而及时变更，最终，由于这些应用展示不能满足业务变更，可能会被弃用或重新开发。

2、展示内容不直观，看不出数据问题

传统BI应用通常需要耗费很大成本定制开发数据报警规则和数据应用，以突出显示数据中存在的问题。由于很难枚举全部场景，导致数据应用页面很平庸、看不出数据问题，难以帮助用户快速、精准决策。

3、应用开发成本高，效率低

传统BI工具通常采用套模板的方式开发，这种方式需重新调整数据内容和样式布局，实际人力成本和时间成本并未显著减少。

解决方案

部署先维chatBI产品，运用产品中问答式数据探索能力和问答式应用开发功能，帮助项目快速搭建智能应用。在数据探索方面，用户可使用数据问答、问答引导、数据解读、可视化展示知识更新等功能，帮助用户快速解读数据、主动发现异常、提供优化建议，提高决策效率；在应用开发方面，用户可使用数据建模、数据开发和应用开发功能，快速构建分析主题和分析应用，提高编码的效率和质量。

先维chatBI是搭建在轻应用开发平台之上，具备传统BI开发功能，同时融入大数据、AI应用开发功能。

在大数据方面

先维chatBI集成了30+数据协议，具备数据建模和数据轻度治理功能，同时具备直连、联邦和内存三种计算模式，优化了chatBI数据查询分析速度，提高用户问答时的交互体验。

在AI应用开发方面

实现了数据问答和问答开发效果。在数据问答上采用语音/文字方式对报表、仪表板、大屏应用的数据询问，实现数据互动，帮助决策者快速了解数据整体情况、趋势情况、存在的问题，并进一步提出优化建议。在问答开发上，用户通过描述页面设计需求模型推理服务通过解析需求的意图，将其转化为可执行的SQL和应用模板配置Code。随后，平台将转化的应用模板配置Code通过程序转化成UI组件，并基于页面布局算法编排页面样式，帮助用户快速搭建应用。

技术实现

先维chatBI产品实现的总体技术路线分三层结构：数据层、解析层和应用层。

1、数据层

数据层主要提供多源数据接入能力，提供BI基础分析数据支撑。该层一般对接数据库、API、本地文件数据，数据格式通常是结构化和半结构化数据。

2、解析层

解析层是chatBI产品的技术核心，主要实现数据建模、编码推理及可视化构建功能，计算部分则依赖联邦数据查询引擎和模型推理服务。

3、应用层

应用层向用户提供应用问答和数据探索webUI框架，可同时在PC和移动端访问。该层主要将webUI框架与数据查询引擎和模型推理服务集成，向上统一接收用户问答提示词并返回结果，向下将问答提示词通过模型推理服务转化为机器语言，并交由引擎查询计算，为用户提供想要的结果数据。

以下简单介绍上述三层结构中数据建模、编码推理和可视化构建功能的技术实现思路：

数据建模功能

是将接入层的元数据二次建模，以星型模型或雪花模型方式构建模型关联关系，此处可使用拖拽建模和自动建模两种方式完成维度建模。首先，维度建模将复杂的业务抽象，以数据明细表或轻度汇总表的方式描述业务数据，降低了数据使用的难度。然后，基于数据标准体系规范元数据定义，消除理解歧义，提高模型的分析效率和准确性。最后，将标准的维度模型转化为可执行的SQL脚本，并封装成数据服务，交由联邦查询计算引擎调用。

编码推理功能

是基于模型推理服务，将用户提示词与维度模型关键词结合推理，将提示词转化为可执行的SQL语句，并将SQL语句输出到联邦查询计算引擎执行，并输出二维结构化数据，该数据将作为可视化图表的数据对象。为了提高SQL的准确性，平台提供提示词和关键词优化策略，优化策略如：限定数据分析表范围、预分析目标表的字段、预分析目标表内容、预置计算函数别名等。同时，平台也提供用户自定义的提示词与关键词关联关系映射配置，以适应不同用户提出同一提示词但含义表达不一致带来的数据查询“一致性”问题，适应不同用户的表达习惯，如：不同用户提出“星期天”提示词，有些用户想表达的是周六和周日两天，有些用户表达的则是周日一天。

可视化构建功能

是将用户提示词转化为图表Coding代码（如Echarts图表的option对象），从而生成柱状图、饼图、漏斗图等，甚至是GIS地图、三维图形。其实现思路是将可视化图表抽象、拆分组件、组件Schama标准化，然后将标准化的Schama组件对象定义成提示词并内置在LLM模型中。LLM模型内部通过推理用户多轮对话中的提示词，并将提示词按可视化图表编码规则转换成可执行的代码块，从而实现自动Coding。

以上便是基于语言大模型构建chatBI产品的总体技术路线，当然在实际建设过程中还有许多技术难题需要攻克，如多轮对话幻听、复杂元数据难建模等问题。

先维将继续深造“卧龙明理”大模型，持续优化chatBI系列模型，进一步提高其在数据探索、应用搭建、行业知识库构建等方面能力。在数据探索方面，持续优化异常诊断、预测分析、处理建议，提高自动探索准确性和交互体验；在应用搭建方面，持续调优Text-To-SQL、Text-To-Code精度，达到零代码快速开发应用的效果；在行业知识库方面，持续训练行业数据标准、数据指标和业务场景的数据，为用户推荐更专业的内容。

上一篇：筑牢企业数据安全的第一道防线——数据安全分类分级

下一篇：喜报 | 先维成功入选2024年博士后创新实践基地