人工智能(AI)已经无处不在,给众多行业带来了革命性的变革。
无处不在的人工智能是我们正在迅速进入的一个时代,在这个时代,终端用户越来越习惯于大规模的个性化,否则他们将转向商业竞争对手提供的产品,这些竞争对手可能正在使用人工智能来创建定制服务和用户体验。
第五代英特尔至强可扩展处理器于2023年12月14日发布,这是在人工智能领域快速发展的时代宣布的,特别是由于商业和公众对生成式人工智能等模型的兴趣在公共终端用户和商业社区都积累了许多用户。
OpenAI的ChatGPT风靡全球,在短短2个月内就积累了1亿用户。来自Meta(Instagram)的线程获得1亿用户的速度更快,然而,这张图表说明了用户采用生成式人工智能的速度有多快。
让我们回顾一下这段历程,下面列出了一些关键的人工智能类型:
生成式人工智能的兴起
目前人工智能领域的许多令人兴奋之处都是由生成式人工智能驱动的,特别是那些与深度强化学习相结合的模型。这使终端用户和企业能够创建内容,也使企业能够开发更好的最先进的虚拟代理,包括聊天机器人。然而,此类模型的计算成本也很高,导致高能耗,因此也产生了有意义的碳足迹。
如果我们能够找到有效扩展生成式人工智能的方法,那么就会带来切实的经济效益。例如,将生成式人工智能应用于客户服务相关功能可能会导致生产力提高,范围为现有功能成本的30%至45%,并且与研发相关的生产力可提高总成本的10%至15%。此外,同一份报告还估计,生成式人工智能可能会提高营销职能的生产力,其价值占总营销支出的5%至15%。
生成式人工智能可以帮助企业进行情感分析、文档分析和摘要以及文本到图像的创建。下一节将举例说明人工智能如何改变不同经济部门。
医疗保健:医学成像、远程监控、用于分析电子健康记录(EHR)的自然语言、新药物发现和个性化药物交付;
教育:私人导师提供定制的教育支持,以满足学生的个性化需求;
营销:用于个性化内容创建的生成式人工智能,针对那些更有可能对产品或服务感兴趣的人定制内容,以及个性化优惠和推荐;
交通:自动驾驶车辆导航、车辆健康检查和监控;
建筑:用于设计和数字孪生的生成式人工智能;
安全:入侵者检测、预测分析、人群控制警告;
网络安全:恶意软件威胁检测和防护;
制造:预测分析,包括计划外停机检测、自动缺陷零件分析;
金融服务与投资:自动化信用分析、股票研究、ESG分类、投资组合构建、风险管理、要素投资、保险自动理赔管理、承保风险评估和定价的金融科技解决方案;
客户关系管理(CRM)和客户体验(CX):用于客户参与的聊天机器人
能源:用于检查太阳能电池板和风力涡轮机叶片缺陷的计算机视觉无人机、天气预报、可再生能源生产预测、能源需求预测、电池存储优化、智能电网;
智慧城市:城市交通规划、智慧建筑、优化能源消耗;
零售:个性化推荐、库存管理、产品需求预测、供应链优化;
会计:经过微调的LLM可以阅读和分析特定的文档和电子表格,并协助开发票文档。
法律部门:用于研究协助、案件管理、发票管理、合同起草的自然语言。
英特尔第5代thGenXeon可扩展处理器实现AI的高效扩展
大量的延迟会破坏客户体验(CX),而高计算资源可能只会导致生成式AI模型成本过高而无法大规模采用。延迟是指客户端设备所需的时间以及从服务器发回信号所需的时间设备,通常是数据和分析所在的基于云的远程服务器。这可能会导致糟糕且令人不满意的用户体验,甚至可能导致客户端需要响应才能做出关键决策的潜在危险情况。
最新一代的英特尔至强可扩展处理器可以解决这个问题,并帮助企业和公众更有效地采用由LLM支持的生成式人工智能模型。
以下是英特尔与第五代至强可扩展处理器和AIEverywhere相关的示例:
英特尔矩阵扩展(英特尔AMX)第五代可扩展处理器使生成式AI在CPU上更容易访问,允许用户在需要访问加速器之前执行更多操作。
凭借每个内核中的AI加速功能,第五代英特尔®至强®处理器已准备好处理苛刻的AI工作负载,包括在需要添加离散加速器之前,对多达200亿个参数的模型进行推理和微调。
SLA(服务等级协议)可在200亿个参数下的LLM上实现实时用户体验,令牌(生成动态口令的终端)延迟低于100毫秒。
具体的性能增强包括:与第四代英特尔至强处理器相比,GPT-J的平均第一次令牌加速高达13%,平均第二次令牌加速高达22%。
相对于第三代英特尔处理器,GPT-J的平均第一令牌加速高达2.3倍,平均第二令牌加速高达64%。
第一个令牌延迟加速高达12%
与第三代Intel至强处理器相比,LLaMA-213B上的第一个令牌延迟加速高达2.1倍,第二个令牌延迟加速高达48%。
实时推荐
第五代英特尔至强可扩展处理器提供快速,个性化的产品或内容推荐,不会减慢用户体验,基于深度学习的推荐系统考虑实时用户行为信号和上下文特征,如时间和地点。第五代英特尔®至强®可扩展处理器采用英特尔®高级矩阵扩展(英特尔®AMX),这是一种内置加速器,可加速深度学习推理并加速CPU上的小型模型训练。性能改进包括:
● 与第四代AMDEPYC(霄龙处理器)相比,DLRM(INT8)的批量推理性能提高了2.34倍。
● 与第四代英特尔至强处理器相比,DLRM(模型)的批量推理性能提高了24%。
自然语言处理
更流畅的体验和更快的响应
通过自然语言处理(NLP)推理的性能飞跃,实现响应速度更快的智能助手、聊天机器人、预测文本、语言翻译等。
● 与采用FP32的第三代英特尔至强处理器相比,BERT-Large(大规模语言模型)的实时推理性能提高了9.9倍。
● 与采用FP32的第三代英特尔至强处理器相比,DistilBERT(大型语言模型)的实时推理性能提高了7倍。
随着英特尔®oneAPI深度神经网络库(oneDNN)软件优化已经集成到TensorFlow(符号数学系统)和PyTorch(开源的Python机器学习库)的主流发行版中,开发人员可以更轻松地访问内置AI加速的好处。英特尔®软件开发工具使开发人员可以自由地在不同的硬件架构和供应商之间迁移代码,具有相当的性能,提高了生产力和未来的准备能力,而不会带来昂贵和耗时的挑战。
对于更密集的AI需求,请添加专用的英特尔®Gaudi®AI加速器来扩展基于CPU的基础。
● 与第四代处理器相比,最高可达1.19倍(BF16)和1.23倍(INT8);与第三代英特尔®至强®处理器相比,最高可达9.9倍(BF16)和9.2倍(INT8)。
● 与第四代处理器相比,最高可达1.41倍(BF16)和1.35倍(INT8);与第三代英特尔®至强®处理器相比,最高可达7倍(BF16)和2.9倍(INT8)。
借助已集成到TensorFlow和PyTorch主流发行版中的英特尔®oneAPI深度神经网络库(oneDNN)软件优化,开发人员可以获得内置AI加速的优势。
● 与AMDEPYC9654相比高达2.34倍,与AMDEYPC9754相比高达1.9倍。
● 与第四代处理器相比,最高可达1.24倍(BF16)和1.24倍(INT8);与第三代英特尔®至强®处理器相比,最高可达8.7倍(BF16)和5.5倍(INT8)。
机器学习
第五代英特尔至强可扩展处理器可在CPU上实现高速机器学习。
经典机器学习在高性能计算(HPC)和人工智能应用中发挥着至关重要的作用,从生命科学到金融再到学术研究。凭借大内存、快速内核和英特尔®高级矢量扩展512(英特尔®AVX-512),第五代英特尔®至强®可扩展处理器可提供出色的机器学习训练和推理性能。
借助英特尔®AI软件产品组合,开发人员可以加速端到端机器学习和数据科学管道。这些工具包括优化的框架、模型存储库、用于Scikit-learn的英特尔®扩展和用于机器学习的英特尔®XGBoost优化、通过英特尔®Modin分发的加速数据分析、优化的核心Python库以及端到端工作负载的示例。
此外,英特尔声称,与NVIDIA相比,第五代至强可扩展处理器为整个AI管道提供了更广泛的范围,用户可以:
从数据预处理到推理,使用比NVIDIA gpu更擅长于更广泛的AI任务的Intel®Xeon®处理器导航整个AI任务。
只需几分钟即可在CPU上训练中小型深度学习模型。借助英特尔®高级矩阵扩展(英特尔®AMX),用户可以获得内置矩阵乘法引擎,该引擎可提供离散加速器性能,而无需增加GPU的硬件和复杂性。
值得注意的是,当今大多数数据中心人工智能推理部署都在指示信任级别的英特尔®至强®处理器上运行。
此外,英特尔还声称,凭借大内存、快速内核和英特尔®高级矢量扩展512(英特尔®AVX-512),英特尔至强处理器可提供比NVIDIAGPU更好的机器学习训练和推理性能。
此外,预计边缘,特别是物联网将在2024年继续增长和规模化,因此支持在设备上进行AI决策的硬件资源将成为关键。不过,值得注意的是,英特尔第5th代Xeon可扩展处理器通过英特尔高级矩阵可将实时图像分类推理提高高达24%解决方案。
总而言之,第五代英特尔至强可扩展处理器为企业和终端用户,提供了充分利用和扩展生成式人工智能和人工智能模型的巨大潜力的潜力,相对于上一代英特尔至强处理器,性能显著提高。
访谈
更多做行业赋能者 HID迎接数字化浪潮新机遇 破解新挑战
今年3月份,全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》(以下简称“报告”),该报告…
数字化浪潮下,安防厂商如何满足行业客户的定制化需求?
回顾近两年,受疫情因素影响,包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击,市场…
博思高邓绍昌:乘产品创新及客户服务之舟,在市场变革中逆风飞扬
11月24日,由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会,在深…