真实的Transformer模型
BERT
谷歌2018年发布的BERT是一个开源的NLP框架,它以其独特的双向训练彻底改变了NLP,这使得模型能够根据上下文对下一个单词应该是什么进行预测。
通过从单词的各个方面理解上下文,BERT在问答和理解歧义语言等任务中优于以前的模型。它的核心使用Transformer,动态连接每个输出和输入元素。
BERT在维基百科上进行了预先训练,在各种自然语言处理任务中表现出色,这促使谷歌将其整合到自己的搜索引擎中,以获得更自然的查询。这一创新引发了一场开发高级语言模型的竞赛,并显著提高了该领域处理复杂语言理解的能力。
LaMDA
LaMDA(对话应用语言模型)是谷歌开发的基于transformer的模型,专为会话任务设计,并在2021 谷歌I/O主题演讲期间发布。它们旨在生成更自然和上下文相关的响应,增强各种应用程序中的用户交互。
LaMDA的设计使其能够理解和响应广泛的主题和用户意图,使其成为聊天机器人、虚拟助手和其他交互式AI系统应用的理想选择,其中动态对话是关键。
这种对会话理解和响应的关注标志着LaMDA在自然语言处理和AI驱动的通信领域取得了重大进展。
GPT和ChatGPT
由OpenAI开发的GPT和ChatGPT是先进的生成模型,以其生成连贯且与上下文相关的文本能力而闻名。GPT-1是2018年6月推出的首款车型,两年后的2020年推出了最具影响力的模型之一GPT-3。
这些模型擅长各种各样的任务,包括内容创建、对话、语言翻译等等。GPT的体系结构使其能够生成与人类书写非常相似的文本,这使得它在创意写作、客户支持甚至编码辅助等应用程序中非常有用。ChatGPT是一种针对会话环境进行优化的变体,擅长生成类似人类的对话,增强了它在聊天机器人和虚拟助手中的应用。
其它
基础模型,特别是Transformer模型,正在迅速扩展。一项研究确定了50多种重要的Transformer模型,而斯坦福大学的研究小组评估了其中的30种,承认该领域的快速发展。NLP Cloud是NVIDIA Inception计划的创新启动部分,它为航空公司和药房等各个行业使用了大约25种大型商业语言模型。
在诸如hugs Face的模型中心等平台的引领下,越来越多的人倾向于将这些模型开源。此外,已经开发了许多基于Transformer的模型,每个模型都专门用于不同的NLP任务,展示了模型在不同应用中的多功能性和效率。
基准及表现
对NLP中Transformer模型的性能进行基准测试和评估涉及到评估其有效性和效率的系统方法。
根据任务的性质,有不同的方法和资源来做到这一点:
机器翻译任务
在处理机器翻译任务时,可以利用WMT(机器翻译研讨会)等标准数据集,其中机器翻译系统遇到各种语言对,每种语言对都有其独特的挑战。
BLEU, METEOR, TER和chrF等指标作为导航工具,指导我们实现准确性和流畅性。
此外,跨新闻、文学和技术文本等不同领域的测试确保了机器翻译系统的适应性和多功能性,使其成为数字世界中真正的多语言。
质量保证标准
为了评估QA模型,使用特殊的问题和答案集合,如SQuAD(斯坦福问答数据集)、Natural questions或TriviaQA。
每一个都像一个不同的游戏,有自己的规则。例如,《SQuAD》是关于在给定文本中寻找答案,而其它游戏则更像是一款带有来自任何地方的问题的问答游戏。
为了了解这些程序的性能,我们使用Precision、Recall、F1等分数,有时甚至使用精确匹配分数。
NLI基准
在处理自然语言推理(NLI)时,使用特殊的数据集,如SNLI(斯坦福自然语言推理)、多语言推理和ANLI。
这些就像语言变体和棘手案例的大型库,帮助我们了解计算机对不同类型句子的理解程度。我们主要检查计算机在理解陈述是否一致、矛盾或不相关方面的准确性。
同样重要的是,研究计算机是如何处理复杂的语言问题的,比如当一个单词指的是之前提到的东西,或者理解“not”、“all”和“some”。
与其他架构的比较
在神经网络的世界里,有两个突出的结构通常被比作Transformer。它们中的每一种都提供了独特的优势和挑战,为特定类型的数据处理量身定制。
复发层
复发层是递归神经网络(RNN)的基石,擅长处理序列数据。这种体系结构的优势在于其执行顺序操作的能力,这对于语言处理或时间序列分析等任务至关重要。在循环层中,前一步的输出作为下一步的输入反馈到网络中。这种循环机制允许神经网络记住先前的信息,这对于理解序列中的上下文是至关重要的。
然而,正如我们已经讨论过的,这种顺序处理有两个主要含义:
这可能导致更长的训练时间,因为每一步都依赖于前一步,使并行处理具有挑战性。
由于梯度消失问题,它们经常与长期依赖关系作斗争,在这种情况下,网络在从序列中相距很远的数据点学习时变得不那么有效。
Transformer模型与使用循环层的体系结构明显不同,因为它们缺乏循环性。正如我们之前看到的,Transformer的attention层评估了这两个问题,使它们成为NLP应用程序的RNN的自然进化。
卷积层
另一方面,卷积层,卷积神经网络(CNN)的构建模块,以其在处理空间数据(如图像)方面的效率而闻名。
这些层使用核(过滤器)扫描输入数据以提取特征。这些核的宽度可以调整,允许网络根据手头的任务专注于小的或大的特征。
虽然卷积层非常擅长捕获数据中的空间层次和模式,但它们面临着长期依赖关系的挑战。由于本身不考虑顺序信息,这使得它们不太适合需要理解序列的顺序或上下文的任务。
这就是为什么CNN和Transformers是为不同类型的数据和任务量身定制的。CNN由于其处理空间信息的效率而在计算机视觉领域占据主导地位,而Transformer由于其理解远程依赖关系的能力而成为复杂顺序任务的首选,特别是在NLP中。
结论
总之,Transformer已经成为AI NLP领域的一个巨大突破。
通过其独特的Self-Attention机制有效地管理序列数据,这些模型优于传统的RNN。它们更有效地处理长序列和并行数据处理的能力大大加快了训练速度。
谷歌的BERT和OpenAI的GPT系列等开创性模型体现了Transformer在增强搜索引擎和生成类人文本方面的变革性影响。
因此,它们在现代机器学习中不可或缺,推动了AI的边界,开辟了技术进步的新途径。
原文链接:
https://www.datacamp.com/tutorial/how-transformers-work
高端微信群介绍 | |
创业投资群 | AI、IOT、芯片创始人、投资人、分析师、券商 |
闪存群 | 覆盖5000多位全球华人闪存、存储芯片精英 |
云计算群 | 全闪存、软件定义存储SDS、超融合等公有云和私有云讨论 |
AI芯片群 | 讨论AI芯片和GPU、FPGA、CPU异构计算 |
5G群 | 物联网、5G芯片讨论 |
第三代半导体群 | 氮化镓、碳化硅等化合物半导体讨论 |
存储芯片群 | DRAM、NAND、3D XPoint等各类存储介质和主控讨论 |
汽车电子群 | MCU、电源、传感器等汽车电子讨论 |
光电器件群 | 光通信、激光器、ToF、AR、VCSEL等光电器件讨论 |
渠道群 | 存储和芯片产品报价、行情、渠道、供应链 |
< 长按识别二维码添加好友 >
加入上述群聊
带你走进万物存储、万物智能、
万物互联信息革命新时代