科技公司史上第一次:Meta开源GPT3参数大小的AI模型

澎湃新闻记者 邵文
在生成文本段落、科技开源模拟人类对话及解决数学问题表现惊人的公司大型语言模型,显然是史上数这几年AI发展最热门的领域之一。但这样的第次大型语言模型不仅能够自行生成有害内容,还可以将这样的模型内容通过在其上构建的下游应用程序传播开来。
理论上,科技开源更多人的公司参与对问题的解决应该会有所帮助。然而,史上数由于语言模型的第次训练需要大量的数据和计算能力,迄今为止,模型它们仍然只是科技开源大型科技公司的特有项目。而在更广泛的公司群体如学界,以及担心人工智能滥用的史上数伦理学家和社会科学家中,只有旁观的第次选项。
“我相信建立信任的模型唯一方法是极度透明。”Meta AI 的常务董事乔尔·皮诺(Joelle Pineau)说。当地时间5月3日,Meta AI开放了拥有1750亿参数的大语言模型OPT-175B(Open Pretrained Transformer,OPT)。
对于大型科技公司来说,这是一个前所未有的举动。即使是在大语言模型历史上,这也是第一次毫无保留,把预训练模型、训练代码以及使用代码全部公开。
“我们中的很多人都是大学的研究人员,”皮诺说,“我们知道大学和行业在建立这些模式的能力方面存在明显的差距。让研究人员共同讨论这一技术的好处是显而易见的。”她希望其他人能仔细研究他们的工作,对其进行拆解分析,或者在此基础上构建。她认为,当更多的人参与进来时,突破就会更快实现。
OPT语言模型中约有1750亿个参数(这些参数是神经网络在训练过程中可以被调整的参数),与OpenAI开创性的神经网络GPT-3规模基本相同,同时具有付费服务GPT-3的非凡能力和不可避免的缺陷。
皮诺不讳言,“这是经过精心设计的”,该团队在建立OPT时就考虑在语言任务的准确性和有害性方面与GPT-3相匹配。OPT是为了给研究人员提供一个类似的语言模型来进行研究。
OpenAI拒绝了对Meta的声明发表评论。
OpenAI的母公司正在探索在其搜索产品中使用大型语言模型,但也因为缺乏透明度而受到批评。谷歌在这方面受到诸多争议,其曾在人工智能伦理研究员Timnit Gebru想要发表一篇有关谷歌在当时的语言系统可能会从网站上学习包含偏见和仇恨言论的论文后辞退他,最近又解雇一位对已发表研究提出异议的员工。
那么,Meta为什么要这样做呢?毕竟Meta也是一家很少提及脸书和Instagram背后算法工作原理的科技公司,还曾以让其内部研究团队隐瞒对其不利的问题而闻名。
《麻省理工科技评论》认为,Meta采取不同方法的一个重要原因是皮诺本人,她多年来一直在推动人工智能研发过程中的透明度。
在核心学术会议发表研究的方式上,皮诺要求研究人员必须将包括代码和有关如何进行实验的详细信息与结果一起提交。她自2017年加入 Meta(当时的)以来,一直在其人工智能实验室倡导这种文化。
“Meta对开放科学的承诺是我在这里的原因,”皮诺说,“我不会因为其他条件来到这里工作。”
除了代码外,Meta也公布了开发日志。日志包含团队成员对于数据训练的每日更新:如何将其添加到模型中,以及何时、哪些有效、哪些无效。在100 多页的笔记中,研究人员记录了从2021年10月到2022年1月不间断运行的三个月训练过程中的每个错误、崩溃和重启。
斯坦福大学基础模型研究中心主任Percy Liang将大模型的开放程度总结成4个层次:
第一层论文开放,证明一些设想的可行性,并提供构建思路;第二层API开放,允许研究人员探索和评估现有模型的能力(如推理能力)和限制(如偏见);第三层模型权重开放和训练数据开放,允许研究人员逐步改进现有模型,开发更深入的可解释性技术和更有效的微调方法,让研究人员更好地理解训练数据在模型行为中的作用;第四层计算能力开放,允许研究人员尝试新的体系结构、训练目标和过程、进行数据融合,并在不同的领域开发全新的模型。
“更高层次的开放能让研究者专注于更深的问题,也同时会带来更多风险。”Percy Liang明确指出这一点。
Meta此次以这样的程度开源其大型语言模型是一个非常大胆的举措,可能会产生当下想象不到的风险。这也是OpenAI对于不发布GPT-3的前身GPT-2给出的原因。
“我不能告诉你,这种模型不会产生其他可怕的风险。”皮诺驳斥了“仅仅是因为它太危险”,所以不应该发布模型的想法。她说道,“我理解这些模型的弱点,但这不是一种研究心态。”
据《麻省理工科技评论》,曾在被谷歌因“违反了其行为准则”辞退的人工智能伦理研究员玛格丽特·米切尔(Margaret Mitchell)认为,OPT的发布是一个积极的举措。但她认为透明度是有限度的。她提问道,“语言模型是否经过了足够严格的测试?可预见的好处是否超过了其可预见的危害?在这个过程中如何避免错误信息的产生,或种族主义和厌恶女性的语言?“
华盛顿大学的计算语言学家艾米丽·M·本德(Emily M. Bender)曾在谷歌中心与米切尔共同合作过相关研究,她也担心着如何处理潜在的危害。“降低任何机器学习技术风险的真正关键是要在特定用例中进行评估和探索,例如这个系统是用来做什么的?谁将使用它?系统输出将如何呈现给他们?”
对于皮诺来说,这些担忧应该通过更多的公开讨论来解决,而不是减少沟通。“世界各地的人们对于什么样的对话是合适的有不同的看法,而人工智能是对话的一部分,”皮诺并不是希望语言模型能说出令每个人都同意的话,“但我们该如何应对呢?那就是在讨论过程中多去听却他人的声音”。
相关文章
央行等八部门:支持五城设立金融改革试验区 支持商业银行设立理财子公司
来源:华夏时报文/刘佳11月21日,人民银行等八部门印发的《上海市、南京市、杭州市、合肥市、嘉兴市建设科创金融改革试验区总体方案》下称《总体方案》)提出,通过5年左右时间,将上海市、南京市、杭州市、合2025-07-07- *推特董事会接受马斯克收购要约。美国股市周一低开高走,盘初投资者对美联储加息和全球经济放缓的担忧笼罩市场,随后科技股回暖带动三大股指逐步收复失地。截至收盘,道指涨238.06点,上涨0.70%,报342025-07-07
- 面对内外复杂形势,积极扩大有效投资已成为当前中国宏观政策发力重点。官方数据显示,一季度中国固定资产投资同比增长9.3%,比2021年全年提高4.4个百分点。在全国范围内,一批批重大项目火热开工,各地纷2025-07-07
- 经济参考报近日,《国务院办公厅关于推动个人养老金发展的意见》以下简称《意见》)正式发布,业内期盼已久的个人养老金制度终于落地。这是我国在推进多层次、多支柱养老保险体系建设过程中迈出的重要一步。随着相关2025-07-07
- 卡航不仅是出了名的服务好,更逆势创下25年盈利新高文 | 邓雨洁 王静仪“头顶一块布,天下我最富”。随着世界杯拉开帷幕,这句调侃也在各大社交平台不断涌现,全球各国人们都震惊于这个豪掷2200亿美元筹备2025-07-07
百润股份增速放缓一季度净利润下滑30% 靠控费提升净利率的路走到了头?
炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!出品:新浪财经上市公司研究院作者:浪头饮食/ 郝显4月25日晚间,披露了2021年年报和2022年一季报。去年业绩增速显著放缓,营收增长35%,2025-07-07
最新评论