提升计算机对人类知识的集成、意图的理解,扩展人类的智力边界,实现更顺畅的人机交互,一直是信息技术努力的重要方向。随着美国人工智能研究公司开放人工智能(
OpenAI
)推出的聊天生成预训练转换器(
ChatGPT
)爆火,多家科技巨头不断加码生成式人工智能竞赛。谷歌在聊天机器人巴德(
Bard
)之后又发布了能
“
看懂
”
和生成音视频内容的多模态
“
第二代通道语言模型
”
(
PaLM 2
),微软新必应(
New Bing
)搜索引擎集成了多模态
“
生成式预训练大模型
4”
(
Generative Pretrained Transformer 4
,以下简称
GPT-4
),亚马逊也通过发布泰坦(
Titan
)宣布加入战局。百度
“
文心一言
”
、华为
“
盘古
”
、腾讯
“
混元助手
”
、阿里
“
通义千问
”
、商汤
“
日日新
”
、昆仑万维
“
天工
”
、科大讯飞
“
星火认知
”
等源自中国的大模型更是不断涌现。各类生成式人工智能大语言模型(
Large Language Model
,以下简称
LLM
)井喷式爆发,技术应用热潮席卷全球。
大模型已经具有服务
“
千行百业
”
的能力。但作为一项互联网信息技术的重大变革,大模型的逻辑推理能力以及对人类的
“
理解能力
”
获得极大提升,在文本、图像、语音、视频等信息内容生成方面带来革命性变化,将真正把信息内容生产与传播带入人工智能内容生成(
Artificial Intelligence Generated Content
,以下简称
AIGC
)的新时代,正在引发人类社会的知识革命。通过从巨量数据中学习对象的特征,不再简单进行对比和匹配,而是尝试理解人们的想法,利用现有文本、图像或音频文件并基于大数据集生成内容的人工智能内容创作,将不仅成为人类生产创意性信息内容的强大工具,也可能极大地改变网络信息内容生态,给信息内容治理带来新风险新挑战。
一部人类史就是一部信息生产、交流与传播史。从原始社会的口耳相传,农业社会的简牍纸帛,到工业时代的广播、电视,再到互联网特别是移动通信技术的发展,人类信息内容的生产与传播主要以用户生成内容(
UGC
)和专业生成内容(
PGC
)两种模式展开。在互联网时代之前,无论是简帛、图书、报刊还是广播电视,最易于广泛传播和长久流传的主要是专业生成内容,其信息内容的生产者主要是知识分子、官员、某些领域的专业人士等。大众传媒时代,还出现了记者、编辑这样的内容生产者与把关人。整体而言,专业生成内容较为权威、可靠,质量较好。相对来说,口耳相传、街谈巷议的内容,主要是用户生产,生产者未必是专业人士,一般也不会有质量把关人。所谓
“
流言蜚语
”
,多是
“
自产自销
”
,其兴也忽,其亡也速。但到了互联网时代,特别是社交媒体技术广泛应用后,人人都有麦克风、人人都有摄像机,网络空间的
“
街谈巷议
”
也能够广泛传播和长久记录,短视频使得每一个人都有机会
“
被看见
”
。网络空间中,用户生成内容在数量上自然具有压倒性优势。仅微信平台,每天就有数亿次音视频通话,发送信息数百亿条。截至
2022
年底,我国网络视频(含短视频)用户规模达
10.31
亿,网络直播用户规模达
7.51
亿。人类社会信息内容生产与传播,实现了从以专业生产为主到用户生产为主的革命性转变。
生成式人工智能大语言模型的出现,开启了人工智能生成内容的新时代,是人类信息内容生产与传播方式的再一次革命性巨变。信息内容生产主体发生巨大变异,人工智能在信息收集、筛选和整合、推理的全过程都能替代人力,极大地解放人力资源。信息内容生产效率发生颠覆性变革,大算力驱动强算法处理大数据,在文本分类、情感分析、机器翻译、问答系统、文本生成等自然语言处理,图像分类、物体检测、图像分割、人脸识别、图像生成等计算机视觉,车辆控制、道路识别、交通流预测等自动驾驶,识别欺诈、评估风险、预测市场变化等金融风控,疾病诊断、病理分析、医学图像分析等医疗健康,以及智能家居、智能制造、环境监测等物联网各领域多种任务上,都能高质量作出结果判断,高效率进行内容生成。信息内容传播出现颠覆性变化,信息的生产、传播更加便利,尤其是降低了专业知识的获取门槛。信息内容的表现形态更加丰富,利用人工智能创生技术,图、文、代码等相互转换更加自由,可以一键生成
“
数字人
”
分身,
“
开启智能互联时代
”
。
在信息内容的输出形态上,生成式人工智能大模型已经可以实现文本、图像、视频、音频、数字人以及
3D
内容等多种模态。以商汤
“
日日新
”
大模型系列为例,
“
秒画
SenseMirage”
是文生图创作平台,可以文字生成光影真实、细节丰富、风格多变的图片,可支持
6K
高清图的生成。
“
商量
SenseChat”
是高效聊天助手,它能秒解复杂问题,提供定制化建议,还能辅助创作一流文本,具备不断学习进化的特性。
“
明眸
MingMou”
是数据标注平台,内置
10
余个通用大模型和行业专用大模型,支持智能驾驶、智慧交通、智慧城市等多种场景的
2D
分类、检测和
3D
检测的智能标注。
“
如影
SenseAvatar”
是人工智能数字人视频生成平台,仅需一段
5
分钟的真人视频素材,就可以生成出声音及动作自然、口型准确、多语种精通的数字人分身。场景生成平台
“
琼宇
”
、物体生成平台
“
格物
”
是
3D
内容生成平台,可以高效且低成本生成大规模三维场景和精细化的物件,为元宇宙、虚实融合应用打开新的想象空间。
生成式人工智能可成为人类的聊天伴侣,它通过预训练技术支持模型产生流畅、符合上下文语境、具有一定常识的聊天内容,对话呈现出一定的
“
人格性
”
而不是生硬的机器话语,因此有成为虚拟陪伴机器人的潜质。在特定领域,通过学习专业知识并利用
“
微调
”
技术,大模型可以承担智能客服
“
工作
”
。在搜索服务中,大模型将更能领会人类意图,直接生成用户想要的
“
答案
”
,而不仅仅提供一系列网页链接。
大模型最典型的应用就是写作生成。根据主题、关键词要求,生成式人工智能可以
“
写作
”
故事、小说、诗歌、信件、新闻报道、时事评论、论文大纲等;进行文字修改和润色,如语法更正、文本翻译、关键字提取。大模型还可以写代码,根据
OpenAI
的技术研发人员介绍,通过对大型语言模型的训练,能从自然语言文档字符串中生成功能正确的代码体。曾有用户使用
ChatGPT
就
2023
上海车展
“
冰激凌事件
”
秒替涉事公司写道歉信,结果比该公司公关文案更迅速、措辞更得体,涉事公司被网友锐评其
“
公关水平不如
ChatGPT”
。
GPT-4
还能够根据图片识别内容,甚至可以理解背后有特定内涵的图片,也就是所谓
“
梗图
”
。商汤
“
日日新
”
大模型系列中的
“
秒画
”
,以及
Stable Diffusion
和
Midjourney
,都能利用文字提示,生成非常具有创造力的图像。
服务场景实现了从单一领域到通用性的转变。生成式人工智能大型语言模型具有更好的通用性、精度和效率,可以通过预训练或其他方式在大型数据集上进行学习,再通过微调高效地处理计算机视觉、自然语言处理等复杂任务。大语言模型在训练过程中使用了数量庞大、覆盖了各种主题领域的语料库,能在更广泛的应用领域中模仿人类智能。在
“
模型即服务
”
的实现过程中,作为
“
代码层的基石性模型(
Foundational Model
)
”
,生成式人工智能大语言模型拥有成为新一代基础设施的能力,可被应用于从搜索引擎、内容平台到应用软件等各类下游场景之中,包括日常工作、科研教育,乃至公共服务,影响各行各业。基石模型的开发者因此成为数字技术市场的
“
看门人
”
,拥有强大的市场支配力量。这是在人工智能发展历史上真正具有划时代意义的产品:如果说
AlphaGo
标志着狭义人工智能达到和超越了人类在专业领域的能力,那么
ChatGPT
则开启了通用人工智能时代
——
即人工智能具有广泛的学习能力并在大多数领域达到或超过普通人类能力的时代。
对话方式实现了从单向检索到智能交互的转变。如何让计算机不再是冷冰冰的机器,如何增强计算机对人类理解,如何让人类获取信息更加便捷,都是信息技术发展的重要驱动力。在生成式人工智能大语言模型之前,人类获取知识和信息,或者靠面对面交流,或者靠查询图书资料,或者靠互联网搜索引擎。在获取信息的方式上是单向的、枯燥的。除了人与人之间的交流外,人与书籍资料、电脑网络之间是冷冰冰的
“
主体
-
客体
”
关系。但生成式人工智能大语言模型极大地改变了人类获取知识和信息时的对话方式。以
ChatGPT
为例,通过海量数据的生成式预训练模型,基于大量的互联网文本进行训练,能够理解和回答各种主题的问题,能够以类人化而非机器化的话语体系进行自然语言表意。
ChatGPT-3
就已经具备上下文学习的显著能力,能够预测上下文词汇,学习或模仿数据中的模式,通过对应的关键信息匹配和模式模仿来输出对应情境下的回答。随着模型参数数量的增加,上下文学习能力不断增强,就能够保障人机对话的连续性,在无法理解指令时主动向用户发出追问。这就为人类通过大模型获取信息,覆盖了一层
“
人格化
”
交流的外表,使得计算机信息检索不再是冷冰冰的机器操作,而可能是具有
“
人情味
”
的智能交互。
训练数据存在瑕疵和局限。大模型预训练所需要的天文级数据,不可能全部进行准确性验证,而如果数据不准确或缺失,必然影响到结果的可靠性,导致
“
垃圾进,垃圾出
”
。如果数据有偏见、包含敏感信息,还可能使得生成结果出现歧视、错误认知。
2017
年,已有研究通过分析斯坦福自然语言推理(
SNLI
)语料库,证明了自然语言处理数据中的偏见和刻板印象。在不接入互联网或使用插件的情况下,大模型的知识往往是有时限的,比如
GPT3.5
所拥有的知识仅限于
2021
年前发生的事件;谷歌的巴德称可以联网搜索信息,但仍存在一定时间差。它们存在着算力受限、训练不足、研发和运作成本很高等问题。大模型训练堪称暴力美学,需要有大算力、大数据和大模型,每一次训练任务都耗资巨大。商汤公布的纪要显示,在云算力端,运行
ChatGPT
至少需要
1
万张
A100
芯片,而目前国内只有商汤、百度、腾讯、字节、阿里和幻方有超过
1
万张储备,算力缺口巨大,成本极高。
内容生成具有上限。高概率的组合未必真实,很难具备创造性。
ChatGPT
这样的人工智能模型只能根据接受过训练的信息做出反应,不能真正像人类一样访问实时事实或理解上下文。第一,人工智能内容生成实际上仍是知识重组,而不是知识生产或再生产。一方面,与人类的智力仍有差距,理解上下文的能力仍然有限,缺乏
“
人情味
”
,只能追求短时、大量,但无法生产出有意义的创新性内容。模型输出的答案是由其预训练的神经网络生成的,而神经网络中的参数是随机初始化的,并且训练过程中会根据输入数据进行随机梯度下降优化,这就使得该模型在面对同一个问题时可能会给出不同甚至相反的回答。给出的答案有时会表现得
“
言之凿凿
”
,有时会
“
一本正经地胡说八道
”
,而在被质疑时又会
“
随机应变
”
或
“
死不承认
”
,本质上是由于其输出结果是在多个备选答案中随机抽取的、概率化的和无法预测的。另一方面,输出内容的质量在很大程度上取决于用户提问(
Prompt
)的能力。对于专业领域的信息,在自然语言处理的过程中存在着通用化与专业化之间的矛盾,很难在保证结果易读的同时又不降低其专业性。第二,存在
“
幻觉
”
(
Hallucination
)通病,使内容
“
看起来正确,本质上错误
”
。模型训练集中的信息压缩所带来的必然偏差,在未给出多余指示词的情况下,模型生成的输出包含一些与输入不符合的信息,这些信息可能是错误的、无关的或者荒谬的,制造出语义扩张或无关的情景,而且无法避免。大模型人工智能具有人格化的表象,但仍不可能真正具备人格。在数字系统中,人工智能并无所谓的人性,不可避免会出现
“
幻觉
”
这种
“
自信反应
”
。第三,跨语言和跨文化难题,多语言的语料搜集,不一定能把握清楚语料的背后内涵。在
OpenAI
公布的
GPT-3
训练数据集中,英文语料高达
92.65%
之多,而排名第二位的法语只占
1.92%
。语料输入在很大程度上决定结果输出。大模型训练中,对中文语料的运用过少,将不仅极大地影响到大模型生成内容的质量,也极大地影响到以汉语言为主要表意工具的中华文明。
用户与生成式人工智能大语言模型对话的过程,就是个人信息被广泛收集的过程。当用户提问时,可能会暴露并不想公开的个人信息。但根据
OpenAI
的说明,用户只能删除个人账户,无法删除敏感个人信息。
3
月
20
日,
ChatGPT
的开源库曾出现漏洞,使部分用户能看到其他用户的对话内容、姓名、电子邮件地址甚至支付信息。
OpenAI
不得不在官网提示:
“
请不要在谈话中分享任何敏感信息。
”
实际上,在要求生成式人工智能回答问题或执行任务时,用户不经意提供的信息可能被用于模型的训练、学习和改进过程,从而被置于公共领域。这不仅可能会侵犯用户个人隐私,还可能泄露他人的信息。例如,当律师使用它审查草拟的离婚协议时,可能会泄露案件当事人的个人信息。特别是,大模型展示了强大的推理能力,它能够根据用户需求编写程序,这一方面将改善用户的产品体验,另一方面也可能带来个人信息泄露风险。
由于专业知识门槛降低、模型难以辨认用户的使用目的,生成式人工智能有可能为网络犯罪提供便利工具。通过编写网络攻击代码,它能够生成
python
、
javascript
等多种语言的代码,可以创建恶意软件来检测敏感的用户数据,还可以侵入目标的整个计算机系统或电子邮件账户以获取重要信息。有专家曾详细介绍如何使用
ChatGPT
创建多态恶意软件,绕过
OpenAI
建立的内容策略过滤器,创建恶意代码。犯罪分子只需要以母语要求模型撰写英文的营销电子邮件、购物通知或软件更新,就可以制作网络诈骗脚本,而且很少有拼写错误和语法错误迹象,难以被识别出是诈骗信息或钓鱼邮件。此外,大模型在用于账户信息训练过程中的信息可能被共享给服务提供商以及相关公司,在这一过程中可能导致数据泄露的风险,留下网络安全攻击的漏洞。
二是意识形态和价值观偏见。大语言模型可能会具有各种社会偏见和世界观,而这些偏见和世界观可能并不代表用户的意图或广泛认同的价值观。现实社会并不是一个天下大同的理想国,不同国家、政治力量、利益团体,都具有相当不同的意识形态和价值观,并呈现出现实的权力结构,且反映在各类信息中。大模型训练所需要的数据集,往往将现实社会的意识形态和价值观进行了编码,可能导致对其进行加固的后果。研究表明,西方大模型训练集中的大部分数据主要是从白人、男性、西方人、说英语的人的角度产生的,所以数据可能会严重倾斜以反映这些结构。现实社会的权力结构被编码在大模型中,大模型输出体现现实权力机构的内容,产生权力的马太效应,结果往往是打造压迫的再生产系统,破坏信息生态系统。特别是在涉宗教、人权等意识形态与价值观问题的领域,国家利益冲突激烈的领域,甚至在关于人种、文明优劣等极端议题上,垄断了大模型相当于垄断了教科书、百科全书、图书馆。大模型将成为认知域作战、塑造公众认知、操纵国际舆论的利器。
四是助长虚假宣传和舆论操纵。在自媒体发展时代,舆论操纵成为更加严重的问题。在
2008
年伊朗总统大选纷争中,美国社交媒体推特(
Twitter
)就成为反对派的重要支撑工具。通过利用社交媒体,反对派极大地降低了动员成本,进而提高动员能力。美国政府在当年的《资助伊朗持不同政见者报告》中明确表示对
“
新媒体
”
的资助,甚至直接要求
Twitter
官方推迟系统维护,以免反对派失去联系渠道。而发源于
Twitter
的不实信息,也被
CNN
、
BBC
等传统媒体放大。但聪明反被聪明误,舆论操纵者往往会自食恶果。在剑桥分析事件之后,已经有美国学者预测,以
ChatGPT
为代表的大型生成性人工智能模型将会成为下一轮选举中针对候选人和影响公共舆论的有力工具。
美国政府也开始采取举措。
2023
年
3
月
30
日,美国联邦贸易委员会(
FTC
)收到了非营利性研究组织人工智能和数字政策中心(
CAIDP
)发起的投诉,认为
GPT-4
不满足任何
FTC
对
AI
使用
“
透明、可解释、公平和经验合理,同时促进问责制
”
的要求,且
“
有偏见、欺骗性,以及隐私和公共安全的风险
”
,要求对
OpenAI
及其产品
GPT-4
进行调查,确定是否遵守了美国联邦机构发布的指南。
5
月
4
日,拜登政府宣布要进一步推动美国在人工智能领域负责任的创新,将对现有生成型人工智能系统进行公开评估。按照人工智能负责任披露原则,谷歌、微软等一批领先的人工智能开发商需要在特定人工智能系统评估平台上进行公开评估,向研究人员和公众提供影响模型的关键信息,评估是否符合人工智能权利法案蓝图和人工智能风险管理框架中的原则和做法,以促进人工智能开发商及时采取措施解决问题。
2021
年
1
月,美国国会通过了《国家人工智能倡议法案》(
NAIIA
),旨在推动美国在人工智能领域的竞争力。
2023
年
5
月
10
日结束征求意见的《生成式人工智能服务管理办法(征求意见稿)》,从数据使用、个人信息收集、内容生成、内容提示标注等全流程对生成式人工智能服务提出了一系列监管设想。但安全与发展的平衡并不易拿捏。规制先行,固然体现了监管部门的敏锐,但对产业发展造成的影响也要认真衡量。生成式人工智能代表的新一代信息技术是当前国际竞争领域的重要制高点,由于中国在这一技术领域处于起步阶段,产业基础不够雄厚,应用影响的经验积累不够充足,在本土生成式大语言模型技术研发初期,对开发者过于严苛的责任设定,也有可能限制产业的发展。比如,就服务提供者对生成式人工智能可能造成的损害问题应承担产品侵权责任,还是其他责任,应详加辨析。应坚持包容审慎的原则,在保障国家和社会安全的前提下,为技术和产业创新留下足够空间。
面对处在快速发展阶段的生成式人工智能大模型,立法与监管部门必须以更大的谦抑,表达出对市场、创新和产业自主性的尊重,为新技术新应用的发展留下更广阔空间。考虑到算力是大模型发展的基础,而算力架构又极其昂贵,在立法和政策选择上,我国应该为新技术新产业融资提供更优良的政策空间。考虑到大模型训练需要用到海量的数据,在保护个人信息和数据安全的前提下,在监管上也应尽可能排除数据训练等方面的不合理障碍,促进数据要素的合理流通利用。法律必须符合规律,监管必须符合实际。应当直面生成式人工智能带来的风险和挑战,平衡创新和公众利益,确保生成式人工智能的有益应用,避免社会风险,最终建立发展与安全相统筹、符合客观规律和发展阶段的赋能型监管理念和监管模式。
互联网行业因其本身技术复杂性而具有极强的专业性。互联网发展史表明,虽然政府和国家的支撑作用不能忽视,但科学社群、技术社群的作用也同样重要。秉持开源精神,科学家与专业技术人士的交流及其所达成的共识,极大地塑造了互联网协议、标准和规则,为国际互联网发展赋予了强大动力。特别是互联网作为新技术、新产业,背后复杂的代码世界和技术发展往往领先于日常生活世界,不可能立即被包括监管部门在内的社会大众所充分理解。它所蕴含的发展潜力,也并非一目了然。如果没有足够的耐心和包容,如果没有温和、理性的理念,很容易因为对风险的担心而扼杀至关重要的创新。在互联网新技术新应用领域,追求绝对安全,往往导致更大的不安全。在这个背景下,包括我国在内,互联网发达国家往往奉行多元治理、社会共治的理念,不仅动员企业和社会充分参与,也为新技术新应用发展预留广阔空间。
生成式人工智能大模型作为互联网信息技术发展的新趋势,已经展现出了爆炸性和革命性的潜力,通过作为生产力工具赋能千行百业,很可能为将来的技术创新、产业跃升、社会治理、个人福祉带来巨大益处,甚至成为国家综合竞争实力的一个重要因素。在这种情形下,首先应支持和扶持大模型开发与部署,同时强化企业社会责任,规范数据处理和个人信息保护,确保人工智能模型的开发和应用符合道德和伦理标准,促进算法向上向善。要强化风险识别和数据溯源,提升技术治理能力,明确数据来源和训练过程,通过数据集识别潜在偏差和其他风险,并通过人工审查或建立监测系统,监测内容输出,识别风险。建立反馈投诉机制,接收、监测和评估实时出现的风险,及时采取补救措施。
在互联网信息内容治理方面,我国以总体国家安全观统筹网络意识形态安全,在《国家安全法》《网络安全法》《反恐怖主义法》《互联网信息服务管理办法》等法律法规框架下,所有从事新闻信息服务、具有媒体属性和舆论动员功能的网络传播平台都被纳入管理范围,危害国家安全、破坏民族团结、扰乱社会稳定等内容被严厉禁止。我国坚持以信息化驱动现代化,第一,以网络强国建设统筹网络信息内容发展,有效促进了网络信息技术的迅猛发展和信息内容的极大丰富。第二,以网络文明建设统筹网络信息内容建设,塑造向上向善的网络风尚,促进社会公众自觉抵制违法和不良信息的侵蚀。第三,以网络法治建设统筹网络信息内容生态治理,有效遏制了违法和不良信息在网络空间的传播,优化网络生态。