AI大模型“隐秘的角落”不再隐秘
2023-07-11 来源:
数据来源:笔神作文微博发布
以聚合数据(一家基于API技术的综合性数据处理服务商)为例,平台能够提供作文分类列表、作文基本信息列表和作文内容三种数据接口来帮助个人和企业获得作文相关数据。该项服务的收费标准为99元2万次。根据此收费标准计算,258万次数据抓取成本超过1亿。常见的API付费调用标准有按调用次数计费、按数据传输量计费、按功能模块计费和按时间计费。考虑到按时间计费没有公开价格数据,因此按照按调用次数计费进行估算,估算价格与实际价格相比应偏高。
然而,无论采用何种计费标准,训练AI大模型的训练成本都不低。早有研究指出数据量会影响机器学习模型的准确度。近期,许多专家也指出目前大型语言模型的训练中出现了“涌现现象”。“涌现现象”是指当数量足够多时,在宏观层面上会展现出微观个体无法解释的特殊现象。在AI大模型中的主要体现为当模型规模达到一定程度时,效果才会急剧增长,在模型规模小于某个临界值之前,模型基本不具备任务解决能力。
名称:八个模型参数数量与模型准确性关系图
数据来源:Wei, Jason, et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).
随着数据量的指数上升,所需的算力、电力等投入成本也会随之上升。国盛证券计算机分析师刘高畅、杨然在发表于2023年2月12日的报告《ChatGPT需要多少算力》中估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。这一成本对于全球科技大企业而言并不便宜,但尚在可接受范围内。2023年4月8日,华为高管公布的数据也显示,AI大模型开发和训练一次的成本高达1200万美元。
根据ARK Invest Big Ideas2023报告,类似GPT-3级别性能的大型语言模型的训练成本从2020年的460万美元暴跌至2022年的45万美元,每年下降70%。其中,GPU和TPU的出现,以及分布式系统和基于云的AI训练的实现对降低成本起到了关键性的作用。英伟达首席执行官黄仁勋在2023年台北电脑展上介绍,训练一个LLM大语言模型,将需要960个CPU组成的服务器集群,这将耗费大约1000万美元(约合人民币7070万元),并消耗11千兆瓦时的电力。相比之下,GPU服务器能够以4%的成本和1.2%的电力消耗来训练一个LLM大语言模型。
此外,相关法律也正在逐步完善。在保护数据服务者的权益的同时,促进生成式人工智能技术健康发展和规范应用。
在维护数据服务者的权益方面,早在2018年,杭州互联网法院就公布了全国首例数据产品纠纷案,也是首例涉数据资源开发应用正当性及数据权属判定的新类型不正当竞争案件。该案判决明确了网络运营者对于其开发的大数据产品,享有竞争性财产权益。未经许可,直接将他人数据产品作为自己获取商业利益工具的,构成不正当竞争行为。在数据侵权案件中,有些法院会根据“三重授权原则”来判断涉案数据收集者搜集数据行为是否合法,即涉案数据收集者收集数据时需取得个人信息用户的同意以及网络运营商的同意,网络运营商需取得个人信息用户的同意。涉案数据收集者只有符合该原则,才能证明其搜集的数据具有正当性,不构成不正当竞争。
根据威科先行数据库数据整理,自2018年以来,关键词为“互联网+反不正当竞争”的判决一共有5814例,占所有反不正当竞争判决的25%。该类案件在2020年达到峰值后逐年下降。同年,《数据安全法(草案)》在中国人大网公布。该法案于2021年通过并正式实施。两者之间可能存在相关性。
2018-2022年关键词“互联网+反不正当竞争”的判决数量统计图
数据来源:根据威科先行数据库数据自行整理
关键词“互联网+反不正当竞争”相关判决主要分布在北上广及周边辐射城市。针对互联网反不正当竞争案件出现较多的省市,设立了北京、广州、杭州互联网法院。
2018-2022关键词“互联网+反不正当竞争”相关判决的地区分布TOP10
数据来源:根据威科先行数据库数据自行整理
今年4月,面对AIGC的火热发展,国家互联网信息办公室起草了《生成式人工智能服务管理办法(征求意见稿)》,并向社会公开征求意见。5月中旬,北上深等地相继发布了支持人工智能产业的政策文件。最新地方政策中均重点提到了算力端发展,加大算力基础设施的投资力度,同时强调了人工智能的高质量发展,拓展AI创新应用场景的深度与广度。
人们应当尽快从过去科幻电影传导的“AI毁灭人类”的思想恐惧中走出来。发展AI的意义不仅在于实现人类可以完成的工作,提高工作效率,更应该在于其带来的跨界能力。在满足社会需求和社会稳定性的基础上,如何利用AI多种数据分析优势和泛化能力实现产业的升级创新,是值得探讨的问题。