融合企业内部数据,赋能工业场景多模态智能决策

原创 爱分析ifenxi 2024-08-09 13:28




工业场景内,结构化数据与非结构化数据多散落在内部系统里,数据孤岛会造成企业分析决策的一大瓶颈,严重阻碍发展进程。如何利用好多模态数据进行分析是工业场景的重中之中,本文将从四个方面对其进行介绍。

分享嘉宾|胡也畅  Fabarta 企业智能分析平台(ArcPilot)产品负责人

内容已做精简,如需获取专家完整版视频实录和课件,请扫码领取。


01

多模态决策智能的现状与路径

1.1工业场景下的多模态数据现状

根据 IDC 报告显示,目前企业结构化数据仅占到全部数据量的 20%,其余 80% 都是以文件形式存在的非结构化和半结构化数据。该现状在工业场景下只多不少,横向观察工业场景的数据现状:

1、结构化数据已经实现一定程度上的数据智能(BI)。以可视化监造、 TPM 、 MES 、 IoT 系统 、通用仪表大盘为典型代表。结构化数据通过数据智能或者商业智能在一定程度上实现了智能性表达。
2、非结构化、半结构化数据的分析与决策还在非常早期阶段。非结构化数据的代表是以文件为主的传统知识库,包含设备部件参数、设备操作手册、故障运维手册等等。非结构化数据部分对大多企业来说,还处于早期阶段,多数仅有内部知识库产品,把相应手册、文档材料往上放,供内部人员使用和分享。
3、在决策智能场景下,将结构化数据和非结构化数据融合,可以进一步放大数据融通后的价值,提供更多的决策支持。在未来,无论是面向不同任务意图的大小模型串联,或是根据智能体构建的相关工具进行编排和调用等触发智能决策,目前都处于初期阶段,这也是本文重点讨论的内容。
1.2结构化数据的智能决策之路
从上世纪80 开始,以 Oracle 、 PG 数据库为代表的经典数据库,再到 2010 年代大数据产品的爆炸和兴起,以及在同一时间兴起的工业界 IoT 相关传感器数据,长期都以 BI 作为数据的出口。
在 BI 领域,有句话是“得益于 BI 的同时苦于 BI ”, 主要因为 BI 的开发周期相对较长,而业务迭代快。部分制造业客户反馈,“业务迭代速度 3- 6 个月左右,但等到 BI 报表开发出来,业务窗口已经过半。”另外 BI 的业务逻辑、口径较复杂,一旦业务逻辑和口径理解不一致,会直接导致最后的数值偏差大。在此过程中,数据的消费者从传统数据开发者逐步过滤到业务用户,这是当前数据的现状。
大模型的兴起使其逐步成为传统BI的挑战者。无论是通过 text2SQL 将自然语言转化成数据库的查询语言,还是通过 text2metrics 依托于现有指标系统将自然语言转化为指标系统的查询方法,亦或是通过 text2API 将自然语言转化为不同数据库或系统的 API 调用,这些技术都致力于将自然语言转化为数据查询。网上有很多 Demo 搭建教程,但搭建 Demo 很容易,然而将 Demo 的落地却很困难,最常见的难题是问不准。主要原因有三个:
首先,在询问具体事件时,语义模糊会影响整个识别过程以及最后的结果。其次,问题类自然语言较为复杂,有时人都不能百分百理解准确,大模型也不能理解。例如“总量”这个概念在不同企业和不同场景定义都不一样,有时是加权,有时是求和。最后一点,大模型给出的结果缺乏可解释性。当企业用户对数据产生质疑时,便会对整个系统产生质疑。这三点是利用大模型进行数据决策时会遇到的问题。

枫清科技(Fabarta)去年专注解决问得准的问题,目前已经有比较完备的解决方案,但同时也遇到了新的问题。我们发现,业务用户对于“问得准”需求后的满足时间阈值只有 3- 6 个月。之后客户会提出新的需求:如何让数据准确引导决策?举个例子,当我们已经解决“某某工厂的产量与能耗分别是多少”这个问题,接下来领导层会更加关注以下几个问题:哪个工厂能耗最高?哪个最低?能耗高的原因是什么?哪些方面的改进能够减少能耗?同时,客户也会关注,在获取数据后能否将企业内部已经有的机器学习、 AI 学习模型或者生产制造中的机理模型串联起来,并根据问题将结果生成对应的报告,让大模型参与落地和自主执行。这部分更多是大模型落地的深水区,我们也在不同的角度反复自问:

  • Infra Ready for AI ?在大模型自主判断的场景时,数据基础设施是否准备就绪?

  • Data Ready for AI ?准备判断的数据本身是否值得信任,质量是否过关?

  • AI Ready for Apps ?当前以上两个问题都被解决了以后,要更深入地思考 AI 的自主决策是否能够实际帮助到线上的业务系统,业务应用能否直接产生价值。

1.3非结构化数据的智能决策之路

非结构化数据与结构化数据的智能决策稍有不同。非结构化数据以知识库产品为代表。根据观察,大部分中国制造业企业处于 1.0 阶段,内部有类似于 Sharepoint 的文档管理系统,将不同部门的文档进行上传,在文档之间做检索。一般而言没有语义理解的搜索产品,更多的还是文档归档和分发。

随着深度学习技术的出现,有了更多的基于深度学习和图谱的知识问答—— KGQA ,也就是2.0时代。过去利用深度学习训练一些 BERT 语言模型,进行意图识别、对话识别。同时会遇到两个瓶颈性问题:一是小模型的泛化能力较弱,一旦数据与问题发生了变化,回答的准确度很有可能无法覆盖。二是如果采用了 KGQA 图谱问答方案,企业会耗用大量时间在图谱构造的标注工作上。
大模型在企业落地的最经典场景是大模型加外挂知识库,同时也是我们所说的 3.0 时代。目前企业有望于直接从 1.0 时代跃迁到 3.0 时代,主要有以下几个原因:首先,在大模型的泛化推理能力显著增强,我们没有必要拿着相同的逻辑重复训练大模型。其次,随着大模型能力的加强,对非结构化数据的解析有了极大程度的提升。举个例子,做大数据相关产品时,有一句话“ trash in trash out ”,当系统位数据质量非常低,或系统无法理解时,往往系统无法给出建设性答复或分析,而大模型在非结构化数据解析和理解上有了很大程度的提高。所以很多企业逐步采用大模型的外挂知识库来解决对非结构化数据的理解问题。
在实际业务落地中,基于简单的 RAG 的检索问答方案,无法检索复杂文档之间的关联关系,从而导致检索精度相对较低,检索出的内容有大量噪音,导致回答出现幻觉以及不准确。这也是我们在 3.0 时代致力解决的问题。

对于非结构化数据如何参与到企业决策智能,其中最重要是需要把海量文档间的关系进行梳理,包括文档之间、文档作者之间、文档中细节知识片段的关系,在整个检索增强链路中都会取到非常重要的联系,提高知识问答的准确率。对于如何通过内容的理解参与决策,例如利用知识库里的标准内容对上传的方案进行分析,甚至给到修改建议,这些都是建立在对海量知识理解的基础之上做决策。最终决策方案将与业务系统做深度的融合,赋能已有的制造业领域系统。

02

多模态决策智能的数据基础

回到制造业行业,该行业的特点在于数据分散,设备相关手册与资料存在于众多系统里。当多模态数据无法融合时,知识本质上会以一个个知识孤岛的形式存储在不同的业务系统中。知识孤岛成为了大部分企业进行业务分析的瓶颈。

2.1 Data Ready for AI: 统一语义层

做好数据基础设施的要点之一是统一语义层。谈到统一语义层时会涉及到元数据,元数据是描述数据的数据。有了语义层后,无论哪种数据来源,首先都会用元数据进行收口,同时用更智能的方式补齐元数据,发现、构建元数据之间的关联关系,最终将相似的语义进行统一,实现面向业务的语义层。
有了面向业务的语义层后,可以帮助大模型更好的感知,当遇到特定任务、话题后,将采取哪些语义层数据解决问题,统一语义层再分发到具体的数据源上获取相应的数据,实现大模型理解数据意图能力的进步。统一语义层中有两个功能分支较为重要。

  • 元数据 for AI 。提供规范的元数据,让大模型更好地理解元数据、更好地落地。

  • AI for 元数据。半结构化、非结构化数据的元数据质量相对较差,利用 AI 技术帮助异构元数据进行智能补齐与关联发现。从而为统一层的梳理提供更好的基础表达。

2.2 图+向量的融合方案
相比于传统的向量解决方案,对于有关联、确定性知识,我们提供是“图+向量”融合的解决方案。这里的“图”并不是指传统意义的图片,而是存储关联关系的图数据库。在大模型领域,大家对向量数据库普遍比较熟悉,因为向量数据库可以处理许多基于概率的信息,而大模型多基于概率进行推演。另外,前文所提到所有的关联关系,更适用于原生存储在图数据库系统里,图数据库更多关注多源异构数据之间的关系,可解释的智能。有了向量数据库和图数据库两种技术加持,可更好地将数据转化成图和向量融合的知识。

企业内部数据进入向量数据库与图数据库的判断标准是什么?对于数据间的关联关系,比如说元数据、结构化数据、非结构化数据的关联关系,都可以作为确定性知识存储在图数据库中;同时,将文本、图片、音频等多模态数据存储在向量数据库当中。当确定性知识和概率性知识融合后,多模态智能引擎作为 AI 数据基础设施,可以显著优化大模型实际场景落地的质量。

03

实际落地案例

3.1统一语义层增强的多模态知识融合分析
统一的语义层如何助力多模态知识的融合和分析?这是较经典的知识库场景,假设企业存在上万文档,而一个话题背后对应的潜在切片能达到百万甚至千万级别。这种情况下,普通 RAG 会召回非常多的相关片段,直接导致回答不准确。当有了统一元数据的加持以后,效果明显更准确。首先当用户登录到系统里后,可以准确识别其身份,用户问道“某设备的具体参数分别是什么?”,与其直接做向量数据召回,更多要思考问题和提问者背后的关联属性,如:
  • 结构化数据:如提问人所属工厂的信息。

  • 非结构化数据:如相关的设备参数文档。

  • 语义关联拓扑:如设备类型、生产商、文档信息。

有了数据表达后,能更精准定位到关联关系,如提问人所属具体工厂、问了哪些设备。来自哪些生产商以及相关文档等。虽然 Bad case 和 Good case 都可以给出回答,但是只有 Good case ,数据来源基于语义和数据的关联关系,更为精准,这种方案才能显著提升回答的质量和精准程度。

上图的例子中还需强调一点,用户提问到某起重机的具体参数,虽然在该提问者工作的工厂知识库中没有找到相关资料,但是在其他工厂有该设备的材料。系统会将这些资料根据其所属的工厂进行分门别类地进行回答和摘要总结,并不像普通 RAG 把所有资料打包直接输出。所以有了关联关系后,可以对知识本身进行扩展,进行更加准确的分析、理解和表达。

3.2统一语义层增强决策智能体
以问数为例,语义可以显著提升系统的智能化程度。在问数领域,大模型原生的理解能力,不管是对数据的理解能力,还是对 SQL 的理解能力,大概只能解决 30% - 50% 的问数常见问题,距离生产可用仍有非常大的差距。
首先,我们会在大模型原生能力基础之上加入对于语义的基础描述如表与字段的含义,完成后准确率会提升到 70%- 80% 级别,相比于原生理解能力有了很大的进步。但仍不足以保证生产可用,所以需进一步引入基于语义的业务含义描述,包括动态少样本学习、思维链。有了语义描述后,将准确率提升至 85% 甚至以上。在我们刚结束的一个  POC 项目中,已实现 100% 业务语义覆盖度。统一语义以及基于语义的业务描述会对智能决策产生非常显著的影响。

只有解决了问数、取数才可以迈向下一阶段,也就是数据的归因分析与自主决策。

第一要解决问的到与问的准,很难实现一线用户都能使用学术性词汇表达自己的问题。所以我们不仅会对关键词做模糊匹配,同时问题涉及多个可能的字段,也会做一个澄清,说明具体含义。

第二要解决问得清和看得明。当用户提问的同时还需要另外两个指标,这里都能提供正确回答,这时会有类似 BI 的需求,我们不仅仅能给用户生成智能图表,把数据库的数据进行原始表达,也能基于对业务语义的理解生成对应的图表展示,包括摘要总结,能够在会话里获得更多信息和资料。

04

大模型智能体应用构建平台

大模型智能体应用构建平台,从产品定位角度而言,向下更多会做大模型的能力支持,包括通用基础大模、专业领域小模型。向上则通过平台对接大模型的典型场景,如智能对话、应用助理、数据分析、行业领域的决策支撑等。同时对接企业里不同数据,把数据全部都融汇到私有记忆体中,为所有决策分析提供数据保障。

枫清科技(Fabarta)正在进行和落地的案例之一:引入智能体解决高阶复杂的制造业问题。在智能体领域,核心解决方案是利用内外循环思路。问与查都是较简单的数据表达,复杂情况需要智能体能力进行数据调度。为解决复杂问题,利用外循环规划 Agent  实现任务拆解,再根据不同任务在内循环中选择合适的调用工具,包括反思。整个这个过程同步反馈到计划的主智能体,由智能体进行迭代学习、反思,对任务进行修改。

举个较简单的例子,当用户问:“明天天气怎么样?”,这个问题对于人类而言非常简单。但把问题进行逐一拆解,首先在外循环中对问题的解决做明确主题计划,要明确用户所在地,通过问询、 IP 、网络信号等获得,还要获得需要查询天气的日期。只有以上两个条件都确定后,最终才会执行天气的查询。每个任务都会进入到内循环状态,实时对任务、工具的选择进行感知。在实际工业场景中,智能体方案落地时,往往会带来大量的工具反复调用,包括工具间串行和并行的执行,这也是深水区解决复杂任务的最大挑战。

以上是本次分享的全部内容,如需获取专家完整版视频实录和课件可扫码领取。

长按二维码,领取完整版视频实录和课件

Fabarta 企业智能分析平台(ArcPilot)产品负责人。专注于以产品连接业务需求与技术实现,以用户为中心驱动产品的商业化进程。原阿里云机器学习平台 PAI、图计算服务 Graph Compute 产品经理。原 IBM 认知计算解决方案研究院产品经理,负责 IBM 咨询团队在大中华区相关软件资产的产品设计。

注:点击左下角“阅读原文”,领取专家完整版实录和分享课件


爱分析ifenxi 爱分析是一家中国领先的数字化市场研究与咨询机构。
评论 (0)
  • 2024年9月14日  Global Info Research行业调研机构发布的《全球人工智能实验室行业总体规模、主要厂商及IPO上市调研报告,2024-2030》分析了全球人工智能实验室总体规模,主要地区规模,主要企业规模和份额,主要产品分类规模,下游主要应用规模等。统计维度包括收入和市场份额等。不仅全面分析全球范围内主要企业竞争态势,收入和市场份额等。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、收入、毛利率及市场份额、及发展动态。历史数据为2019至2023年,预测
    GIRtina 2024-09-14 13:41 158浏览
  •  电机转速传感器是一种将电机旋转速度转换为可测量电信号的装置,它不仅是电机控制系统中的重要组成部分,更是实现设备精准控制、提高生产效率的关键。无论是风力发电、汽车制造还是工业自动化领域,电机转速传感器都发挥着不可替代的作用。 一、揭秘电机转速传感器的工作原理电机转速传感器的工作原理多种多样,但核心思想都是通过感知电机的旋转运动,并将其转换为电信号输出。以下介绍几种常见的转速传感器类型及其工作原理: (1)磁电式转速传感器 磁电式转速传感器以其结构简单、抗干扰性强而广受青睐。它主要由铁芯、磁钢和感
    博扬智能 2024-09-14 15:59 147浏览
  • 作者介绍 一、Skydel与NI USRP软件定义架构(Software Defined Architecture)是一种新型的架构模式,它是一种基于软件的架构,通过软件来定义系统的功能,从而提高系统的运行效率和能量效率。软件定义架构可以将硬件资源抽象化,从而使得应用程序可以更好地利用硬件资源,提高系统的性能和可靠性。Skydel GNSS仿真引擎是创新型的软件定义GNSS模拟仿真引擎,它利用PC的GPU的计算能力并借助Nvidia GPU极快的数学计算能力处理星座、频率与轨迹信息,并
    虹科测试测量TM 2024-09-14 15:33 134浏览
  • 随着物联网(IoT)、工业自动化、医疗设备等领域对嵌入式系统的需求不断增加。嵌入式核心板(SOM)作为嵌入式系统的核心组件,其市场需求也随之增长。在快速发展的同时,也面临一定的挑战:如进口芯片供应链不可控、单一平台受地域政策限制、多平台产品开发周期长、开发难度高等问题,米尔电子设计开发了纯FPGA 开发平台,支持一款平台,双芯设计,支持同款底板可换国产和进口芯片,推出MYIR 7A100T和PG2L100H核心板,解决客户对国内国际市场的不同需求。国产开发维护与进口主流出货痛点痛点一 政策受限,
    米尔电子嵌入式 2024-09-14 14:56 109浏览
  • 2024年9月14日,调研咨询机构环洋市场咨询出版的《全球D级全动飞行模拟机行业总体规模、主要厂商及IPO上市调研报告,2024-2030》,主要调研全球D级全动飞行模拟机总体规模,主要地区规模,主要企业规模和份额,主要产品分类规模,下游主要应用规模以及未来发展前景预测。统计维度包括销量、价格、收入,和市场份额。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、价格、销量、销售收入及发展动态。历史数据为2019至2023年,预测数据为2024至2030年。 调研机构:Global In
    GIRtina 2024-09-14 11:59 123浏览
  • 最近,巴黎奥运会将全球人民的心捆绑在一起,奥林匹克精神的魅力也让低沉已久的大众情绪再度昂扬。在这样一场场顶尖运动员大展身手的体育盛事中,你可能会好奇,运动员们如何在激烈的比赛中保持最佳状态呢?特别是对于耐力运动员?这就不得不提到一个关键因素——体温管理。比如游泳。当地时间8月4日,在巴黎奥运会男子4×100米混合泳接力决赛中,由徐嘉余、覃海洋、孙佳俊、潘展乐组成的中国队夺得金牌。这是中国游泳队首次获得该项目的奥运金牌,更是打破了美国队在该项目奥运会历史上长达40年的金牌垄断。在全民感慨游泳健儿拼
    艾迈斯欧司朗 2024-09-14 17:35 184浏览
  • 采用快速紧凑的 Raspberry Pi 计算模块3(Raspberry Pi Compute Module 3)的简易设置,为Korg备受推崇的高端乐器提供了一种经济高效的解决方案。解决方案:Compute Module 3企业规模:大型企业行业:音乐技术标志性的乐器制造商Korg起源于20世纪60年代的日本,最初将鼓机推向市场,随后是日本第一台合成器和世界上第一台针式调音器。随着20世纪70年代和80年代电子音乐的兴起,Korg在国际上声名鹊起。随着对功能更强大且更实惠的合成器的需求不断增长
    树莓派开发者 2024-09-14 14:54 141浏览
  •  电容位移传感器将继续向更高精度、更高灵敏度、更小型化的方向发展。随着物联网、大数据等技术的不断普及,电容位移传感器将与更多领域相结合,为人类创造更加美好的未来。 一、电容位移传感器的构成 电容位移传感器通常由两个平行极板构成,其中一个极板固定不动,另一个极板与被测物体相连,随被测物体的位移而移动。当被测物体发生位移时,两个极板之间的距离会发生变化,从而导致电容值的变化。通过测量这一变化,就可以准确地知道被测物体的位移量。 二、电容位移传感器的优势 1.高精度:具有极高的测量精度,能够满足各种高
    博扬智能 2024-09-14 15:35 132浏览
  •  电机转速传感器是工业自动化和控制系统中的重要元件,它们能够实时、准确地测量电机或其他旋转设备的转速,确保系统运行的稳定性和可靠性。随着技术的发展,电机转速传感器的种类和类型日益丰富,以满足不同应用场合的需求。 电机转速传感器是用于测量电机转速的设备,广泛应用于工业自动化、车辆、家电等领域。根据工作原理和应用场景,电机转速传感器主要可以分为以下几种类型: 1、光电传感器: (1)光电编码器:通过光学原理测量转速,通常由一个旋转的编码盘和光源组成。编码盘上有透明和不透明的区域,光源通过编码盘产生脉
    博扬智能 2024-09-14 17:26 198浏览
  • 在信息安全的诸多领域之中,密码的安全存储无疑已然成为最为核心的问题之一。随着攻击技术的不断演进,传统的密码存储方法已无法抵御现代复杂的威胁。更为安全、健壮的密码存储机制也成为当代信息安全从业者的关注点。本篇文章将引入并介绍密码存储中的基石,关于密码哈希、盐加密(Salting)、密钥派生函数(KDF)的原理及其应用,揭示密码存储中的常见误区,并分享一系列安全实践。一、为什么不能使用明文存储密码直接将密码以明文存储在数据库中无异于为攻击者打开了方便之门。一旦数据库遭遇泄露,攻击者将轻而易举地获得所
    艾体宝IT 2024-09-14 17:40 184浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦