数据决定AI智能的高度存储成AI时代“新宠”

2023-07-17 17:17 | 来源：贝果财经

ChatGPT发布至今，AI大模型正在进入全新的生态模式，展开了一个全新的旅程，各个研究机构、公司都展开了一场关于大模型的比拼。据科技部新一代人工智能发展研究中心等机构发布的数据，中国10亿参数规模以上的大模型已发布79个。但同时，企业在开发及实施大模型应用过程中面临诸多挑战，尤其是数据存储方面。

多位业内人士对《中国经营报》记者表示，大模型时代，数据决定AI智能的高度。作为数据的载体，数据存储成为AI大模型的关键基础设施。国内要发展人工智能，并使这一产业得到高速的发展，一定要重视数据和信息的数字化记录。如今，国内建设了大量的数据中心，算力相对较多，但存力较少，很多高价值的信息都没有被记录下来。

挑战依旧

以ChatGPT为代表的大模型成功实现商业化落地，并引发了业界震动。人工智能也正在从感知理解走向生成创造。而AI大模型俨然成为互联网的“新风口”，在这场AI带来的新变革中，企业纷纷紧跟时代浪潮，建立自己的大模型。

但随着大模型产业的快速发展，模型规模的快速膨胀，AIGC模型预训练数据量呈现指数级增长，带动算力需求爆发。从GPT-1到GPT-3，模型参数量从GPT-1的1.17亿增加到GPT-3的1750亿；训练数据量也由GPT-1的5GB，增加到GPT-3的45TB。这也就导致面向AI大模型的数据准备时间长，数据来源分散，归集慢。

华为数据存储产品线总裁周跃峰表示，第一，在大模型训练过程中，需要把分散到各个地方的数据进行归集、预处理，然后再把它送给AI大模型。数据预处理的过程非常长，统计发现，上百个TB级的数据可能需要大概10天左右的准备时间，这个对于整个系统的高效利用是不利的；第二，多模态大模型以海量文本、图片为训练集，当前海量小文件的加载速度不足100MB/s，训练集加载效率低；第三，大模型参数频繁调优，训练平台不稳定，平均约2天出现一次训练中断，需要Checkpoint机制恢复训练，故障恢复耗时超过一天；第四，大模型实施门槛高，系统搭建繁杂，资源调度难，GPU资源利用率通常不到40%。

周跃峰认为，AI大模型在进入各个企业的时候，实施门槛还是非常高，它需要非常专业的软件、硬件甚至是维护工程师来进行实施并进行后续的维护。同时可以看到今天的大模型和算力的应用尤其是GPU的应用相对还是比较简单、传统的裸机系统，GPU资源的利用效率相对来说比较低。

存储需求上升

“大模型时代，数据决定AI智能的高度。作为数据的载体，数据存储成为AI大模型的关键基础设施。”周跃峰表示。数据存储成为解决AI大模型发展瓶颈的关键。

周跃峰解释道：“目前大模型算力成本约占整个成本的25%，而数据清洗、预处理等工作，在不算数据存储硬件的情况下，占到成本的22%。从这个角度看，数据机器存储过程，在大模型时代越来越重要。这不仅仅是简单的数据量变大，而且数据的处理过程，以及过程中对于硬件性能的要求越来越高。”他认为，随着大模型出现，数据存储和处理相关领域未来会越来越有前景。

华为苏黎士研究所数据存储首席科学家张霁也认为，随着数据源日趋丰富，很多企业开始关注数据安全问题，而数据存储是数据安全的第一道防线。

为此，华为推出了OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体机。

其中，OceanStor A310深度学习数据湖存储，在数据准备到断点接续，再到整个训练/推理一条链的过程发力，用近存计算和高性能分布式文件存储系统，实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理，为企业解决数据底座问题。

FusionCube A3000训/推超融合一体机面向行业大模型训练/推理场景，针对百亿级模型应用，可提供拎包入住式的部署体验。周跃峰表示，通过一体机方式，纳入所有软件，降低企业使用门槛，实现资源高效利用。“我们也希望通过这个手段，助推中国的AI成为真正的所谓的普惠AI，而不是头部企业用的先进工具，而是让它成为普适性的工具。”

对此，华为分布式存储领域副总裁韩振兴表示：“我们在这方面已经筹备了两三年，因为我们之前就看到了AI的大趋势。当然我们也确实是没有预料到它突然爆发，但我们在很早就进行了筹备。所以当看到大模型开始的时候，便发布了这两个新品，它们的性能指标高于整个业界60%以上。”

THE END

相关阅读

“智能地图+大数据+云计算”科技助力冷链物流快速发展2023-07-17
华为发布大模型时代AI存储新品2023-07-17
人工智能时代需要“更全面的人”2023-07-14
智能出行：交通服务的新范式2023-07-14
超级智能到底是什么？2023-07-12
人工智能时代，学生需要怎样的通识教育2023-07-12
七度蝉联载誉归来！王力安防包揽葵花奖7项大奖，智能门锁、全屋智能行业全面领跑2023-07-12
凯迪仕、德施曼、华为斗法，智能门锁勇闯安全关2023-07-11
智慧有数，浪潮信息发布生成式AI存储解决方案2023-07-11
七度蝉联载誉归来！王力安防包揽葵花奖7项大奖智能门锁、全屋智能行业全面领跑2023-07-10

展会预告

新品

多模态大模型产品亮相，海康威视发布文搜存储系列产品
近日，海康威视基于观澜大模型技术体系，将大参数量、大样本量的图文多模态大模型与嵌入式智能硬件深度融合…
飞凌微推出AIoT应用系列高性能端侧视觉AI SoC芯片A1
误报率降低90%以上！海康威视发布视觉大模型周界摄像机
更准！海康威视发布大模型交通卡口抓拍系列产品
飞凌微推出AIoT应用系列高性能端侧视觉AI SoC芯片A1
多模态大模型产品亮相，海康威视发布文搜存储系列产品

访谈

做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…
博思高邓绍昌：乘产品创新及客户服务之舟，在市场变革中逆风飞扬

11月24日，由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会，在深…

企业

大模型摄像机 | 宇视“梧桐”交通抓拍系列产品重磅发布
依托"梧桐"大模型技术多年的行业积淀与持续创新，宇视成功实现大模型技术在交通抓拍摄像机领域的工程化落地…
熵基科技旗下子公司入驻杭州智能机器人产业园
西部数据推出大容量存储方案，赋能NAS用户、创意专业人士与内容创作者
安森美推出面向工业应用的先进深度传感器
科达自控引入DeepSeek大模型推动智慧矿山与新能源领域技术升级
大模型摄像机 | 宇视“梧桐”交通抓拍系列产品重磅发布

数据决定AI智能的高度 存储成AI时代“新宠”

数据决定AI智能的高度存储成AI时代“新宠”