微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型

人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示,合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂,微软、OpenAI 和 Cohere 等 AI 公司正在转向合成数据。

人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示,合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂,微软、OpenAI 和 Cohere 等 AI 公司正在转向合成数据。

互联网,大数据互联网,大数据© 由 站长之家 提供

Gomez 透露,合成数据的使用已经非常广泛,但并未广泛宣传。举例来说,如果他们想要训练一个高级数学模型,他们可以设置两个人工智能模型扮演老师和学生的角色,在其中讨论三角学等主题,然后观察的人会在必要时纠正对话。

虽然合成数据已经被用于训练模型,并成为几篇研究论文的重点,但模型主要的训练方式是从互联网上获取数据,包括数字图书、新闻文章、博客、社交媒体、Flickr 等。然后,人类通过强化学习反馈(RLHF)给出反馈并填补信息中的空白。

这种方法存在的一些问题包括可能导致侵犯版权和违反隐私,从而使公司陷入麻烦。Meta 已经停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源

Financial Times 指出,微软研究的一篇有趣的研究论文名为「教科书就是你所需要的」,它解释了通过用教科书质量的数据训练一个编码模型,该模型在编码任务上表现得相当好。类似的方法也可以用于语言,其中一个模型被训练用简单的单词和句子,然后可以产生流畅和语法正确的故事。

当然,虽然使用合成数据来训练模型可能会取得突破,但公司也必须小心不要使用质量较差的合成数据,否则可能会导致随着时间的推移性能下降。

再加上 OpenAI 和 Anthropic 等公司正在开发的用于减少人工智能幻觉的 chain-of-thought techniques,合成数据可能会帮助人工智能帮助我们解决更多挑战。

THE END
免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!