diff --git a/source/_posts/Security/Confidential-Computing-Consortium.md b/source/_posts/Security/Confidential-Computing-Consortium.md index c295490..90ce54b 100644 --- a/source/_posts/Security/Confidential-Computing-Consortium.md +++ b/source/_posts/Security/Confidential-Computing-Consortium.md @@ -503,6 +503,7 @@ CCC 对工作负全部责任,个别 CCC 成员可能没有贡献或参与, ## 结论 机密计算领域正在迅速发展,为企业和最终用户提供新工具,保护敏感数据和代码免受数据执行期间发生的一类威胁,而这些威胁以前很难甚至不可能防范。 + 解决方案提供商通过权衡利弊,开发了不同的机密计算方法,例如围绕 TCB 大小,从将应用程序代码划分为可信和不可信组件,到支持在几乎不做任何更改的情况下迁移现有应用程序。 这些不同的方法支持各种用例,但最终目标都是帮助确保敏感、业务关键信息和工作负载的机密性。随着机密计算的不断发展,可能会出现更多方法,或者这些方法可能会演变。机密计算联盟对该领域面临的创新持乐观态度。 diff --git a/source/_posts/Security/LLM-Security.md b/source/_posts/Security/LLM-Security.md index 4933726..6fd118a 100644 --- a/source/_posts/Security/LLM-Security.md +++ b/source/_posts/Security/LLM-Security.md @@ -31,9 +31,24 @@ categories: - [OpaquePrompts](#opaqueprompts) - [H100](#h100) - [安全可信的LLM](#安全可信的llm) +- [大模型风险分析](#大模型风险分析) + - [大模型风险视图](#大模型风险视图) + - [框架软件漏洞是现有深度学习框架短板](#框架软件漏洞是现有深度学习框架短板) + - [可信赖框架降低恶意访问与攻击风险](#可信赖框架降低恶意访问与攻击风险) + - [核心资产保护机制保障运行环境安全可信](#核心资产保护机制保障运行环境安全可信) + - [数据层面,隐私风险与有害数据导致模型不可靠](#数据层面隐私风险与有害数据导致模型不可靠) + - [安全合规的数据处理机制降低数据处理风险](#安全合规的数据处理机制降低数据处理风险) + - [数据安全沙箱技术实现数据可用不可见](#数据安全沙箱技术实现数据可用不可见) + - [投毒检测与数据分析识别有害内容](#投毒检测与数据分析识别有害内容) + - [模型层面,提示词攻击诱发模型脆弱性风险](#模型层面提示词攻击诱发模型脆弱性风险) + - [安全和伦理设计评估为大模型研发提供全方位保障](#安全和伦理设计评估为大模型研发提供全方位保障) + - [评测与对齐是模型训练可信赖的关键技术措施](#评测与对齐是模型训练可信赖的关键技术措施) + - [投诉反馈、风险监控以及应急处置构建模型运营能力](#投诉反馈风险监控以及应急处置构建模型运营能力) + - [生成内容层面,安全风险和不可追溯是重点难题](#生成内容层面安全风险和不可追溯是重点难题) + - [生成内容评测为模型优化更新提供反馈样本](#生成内容评测为模型优化更新提供反馈样本) + - [内容审核机制有效过滤有害输入及输出内容](#内容审核机制有效过滤有害输入及输出内容) + - [健壮性数字水印助力实现内容可追溯可问责](#健壮性数字水印助力实现内容可追溯可问责) - [附录](#附录) - - [参考](#参考) - - [大模型可信赖研究报告](#大模型可信赖研究报告) ## 机密计算 @@ -197,11 +212,173 @@ TEE 提供了隐私保护和数据安全防护功能的创新解决方案,将 - IBM等公司推出了独立的AI安全可信工具或组件,专门用于检查数据集、机器学习模型、业界最新算法等是否具有偏见;还在一些组件中专门集成了AI模型风险管理以及数据治理和数据质量管理等功能。 - 开源社区也积极推出大模型安全可信开源工具。[LLM Guard](https://github.com/protectai/llm-guard)是一个保护和强化大型语言模型安全性的开源工具包,LLM Guard的目的是通过提供开箱即用的所有必要工具来简化公司安全采用大模型的过程。 +## 大模型风险分析 -## 附录 +### 大模型风险视图 + +大模型快速部署和广泛应用的同时,也诱发了更多的风险隐患: + +- 框架风险,深度学习框架面临物理、网络层面的恶意攻击,导致大模型所依赖的基础设施稳定性和安全性难以保障; +- 数据风险,采集及处理海量、多模态的训练数据可能会引入更多的有害数据,容易引发个人隐私泄露、知识产权侵权、数据偏见等问题; +- 模型风险,现阶段,大模型抗干扰能力相对较弱,存在遭受恶意攻击、决策偏见以及模型运营风险等问题; +- 生成内容风险,大模型存在“幻觉”现象,答非所问、违规不良信息生成等问题成为大模型最受关注的风险。大模型高效、便捷的内容生成能力大幅降低了诈骗、钓鱼邮件等恶意行为的门槛,而针对生成内容的追溯保障机制目前尚未完善,使得恶意内容生成的监管更加困难。 + +**大模型可信赖目标:可靠性,健壮性,安全性,公平性,可问责,可解释** + +**大模型全生命周期治理理念:数据采集,模型预训练,模型微调,部署运行,优化更新** + +![](/img/post_pics/cc/LLM-security-1.png) + +### 框架软件漏洞是现有深度学习框架短板 + +大模型领域的基础设施风险主要包括深度学习框架和开发套件等软件层面的漏洞,以及运行环境的不稳定性。可能的风险涵盖物理攻击、网络攻击、运行环境篡改、运维故障等多个方面。 + +在大模型训练阶段,深度学习框架、开发组件以及第三方依赖库存在潜在漏洞,增加了受到外部恶意攻击的风险。在这个阶段,攻击者有可能通过恶意程序入侵等手段,窃取模型、训练数据以及训练脚本等核心资产,从而导致大模型的训练数据和模型参数文件的泄露。早在2020年9月,TensorFlow就被曝出多项安全漏洞,其中危险等级严重的漏洞2个,高危漏洞8个,中危漏洞12个,低危漏洞2个。这些漏洞可能导致任意代码执行、信息泄露以及拒绝服务等。 + +**深度学习框架的运行环境容错性低,核心资产保护面临挑战。**大模型的运行环境不稳定性风险主要来自大模型服务的运维以及模型迭代更新时稳健性较差所导致的服务等级协议(SLA)服务水平不足,从而可能影响大模型服务可用性。在训练和推理过程中,由于设备、网络或通信故障,可能导致模型训练或推理任务中断。此外,大模型的运行环境同样面临安全性风险。一方面,缺乏基础设施与其他系统的严格网络隔离可能导致来自内部其他系统的横向渗透风险。如果攻击者成功侵入基础设施系统并注入后门、木马等恶意程序,整个系统将面临严重的安全风险。另一方面,大模型的运行环境缺乏面向训练数据、模型和网络通信的安全防护措施,使得训练数据、模型参数文件等核心资产容易受到泄露、篡改和窃取等威胁。 + +针对深度学习框架面临的软件漏洞风险与运行环境不可靠问题,一方面通过采用漏洞管理、恶意程序检测以及访问控制等技术措施,降低深度学习框架受恶意访问和攻击的可能性,另一方面通过构建AI核心资产保护机制,保障深度学习框架运行环境的安全可信。 + +#### 可信赖框架降低恶意访问与攻击风险 + +可信赖框架的实现需要从框架自身管理层面、框架外的平台层面以及用户管理层面进行安全保障。 + +- **安全漏洞管理机制**通过对AI框架进行定期的漏洞扫描,识别并记录框架漏洞信息,定时更新安全补丁修复漏洞,提升框架安全能力。 +- **恶意程序检测机制**通过将检测模块直接集成在深度学习框架或者基础设施中,实现检测在训练或者推理任务执行的容器或虚拟机是否存在恶意攻击宿主机、宿主机上其他容器或者执行越权访问等容器逃逸行为。判别是否存在勒索病毒以及恶意程序,并产生告警信息。 +- **访问控制和身份鉴别机制**有效管理并核验登录用户的真实身份,对于多次登录失败的用户,应启用结束会话、限制非法登录次数等措施,以降低未授权操作所引发的风险。 + +#### 核心资产保护机制保障运行环境安全可信 + +为保障深度学习框架的运行环境安全可信,通过构建加解密机制、完整性校验机制、训练任务中断恢复机制以及运行环境隔离机制等方式保障运行过程中AI核心资产的安全。 + +- **加解密机制**通过在深度学习框架和人工智能基础设施中添加加解密模块,实现对训练和推理过程中的数据和模型参数文件等AI核心资产进行保护,防止未授权人员进行非法访问、篡改数据。 +- **完整性校验机制**通过对数据和模型相关文件进行完整性校验,提升大模型在预训练、微调以及后续部署运行阶段的可靠性,通过密码算法或者完整性校验机制对数据和模型参数文件进行加解密处理,核验各阶段的文件完整性。 +- **训练任务中断恢复机制**可以在故障发生后及时保存训练任务上下文及模型参数等信息,并且可支持在新的训练节点加载训练任务上下文及模型参数等信息,正常恢复原始训练任务,大幅提升大模型在训练阶段的可靠性。 +- **运行环境隔离机制**通过设置独立的安全区域保障AI资产在训练和推理过程中的安全性。以可信执行环境技术(TEE)为例,TEE是处理器中一个独立的安全区域,用于保护程序与数据的机密性和完整性不被外部窃取和破坏。与存储加密和网络通信加密一起,TEE可以保护落盘和通信过程中的数据隐私和安全。随着TEE技术的发展,在计算核心与内存之间增加安全处理器,以保护被计算核心使用的数据安全和隐私的机密计算技术出现。 + +### 数据层面,隐私风险与有害数据导致模型不可靠 + +大模型的训练依赖于大规模、多样化且高质量的数据集。这些训练数据通常涵盖各类网页、公共语料库、社交媒体、书籍、期刊等公开数据来源,其中未经筛选和审核的数据成为大模型不可忽视的潜在风险。因此,在大模型的全新范式下,数据来源不可信、数据违规处理、投毒攻击、数据内容有害、数据偏见、数据样本不足正逐步成为大模型在数据方面的主要风险。 + +大模型训练数据的采集、预处理等数据处理活动可能涉及数据来源管理困难、隐私泄露等相关风险。在数据来源管理方面,主要问题集中在数据来源的不可靠性和不可追溯性。大模型训练数据通常涵盖图像、视频、文本、音频等多种数据类型,涉及自采集、商业采购、公开数据集等多种渠道。然而,部分公开数据集的来源缺乏充分的验证和审核,导致预训练数据集中存在来源不清、被恶意投毒的数据。大量训练数据采集的同时难以避免带毒数据的引入,增加了数据来源管理的难度。 + +在隐私泄露方面,数据采集阶段可能会由于采集方式、采集工具的不合规,导致未获取个人信息授权,使得预训练数据集含有未授权个人信息。在数据预处理阶段,由于数据脱敏机制的不完善,个人信息未完全去标识化,致使预训练模型学习、理解到含有个人信息的知识,其生成内容可能会含有个人信息或关联个人信息,存在个人信息泄露的风险。 + +**有害内容、低质量数据导致模型生成违规内容。**大模型通过学习海量数据中的知识、理解常识并生成内容,数据中存在有害内容和数据偏见等质量问题可能导致模型生成内容存在违规信息或决策偏见等问题。 + +在数据内容有害性风险方面,模型预训练阶段使用大量无监督学习预训练数据集,如果其中存在一定量的有害内容,将影响预训练模型的理解和生成能力。同时,在模型微调阶段,微调数据若包含不准确、虚假信息等内容,可能导致模型无法正确对下游任务模型进行价值对齐。数据偏见风险主要源自大模型的预训练和微调阶段。一方面,模型预训练所使用的数据集样本分布可能缺乏均衡性,包括性别、民族、宗教、教育等相关样本比例关系不当。另一方面,模型微调阶段可能由于人工标注员的主观意识形态偏差,引入对微调数据的构建和价值排序的偏见,从而导致微调数据存在价值观上的偏见歧视问题。 + +数据的使用贯穿大模型全生命周期,安全保障与有效处理是保障大模型可靠的关键举措。在数据层面,可信赖实践主要涉及数据全流程的安全合规处理、数据安全沙箱技术、投毒检测以及数据分析等措施。 + +#### 安全合规的数据处理机制降低数据处理风险 + +大模型的数据处理活动主要包含数据采集、数据预处理及模型训练等环节。 + +- 在数据采集环节,通常会建立数据采集来源管理、数据采集业务评估、数据采集审批流程、采集合规审批等管理机制,确保数据采集的合规性、正当性和执行上的一致性。针对数据来源问题,知识产权部门和信息安全部门协助业务部门对数据来源信息的合理性、正当性进行审查,去除含有大量不良违法信息的有害数据来源,并对数据来源信息进行备案管理。 +- 在数据预处理环节,数据处理人员会将收集到的原始数据进行清洗、去重、格式化等多步骤的预处理以确保数据质量。在该过程中,数据处理人员会严格筛查,去除那些不完整、错误、带毒或含有敏感信息的数据。随后数据处理人员通过自动化工具和人工相结合的方式,对预处理后的数据进行标注和筛选,以识别训练数据中是否包含敏感信息。此外,业务部门通过构建敏感内容反馈机制,利用生成内容自身特性,将敏感内容作为负面样本训练敏感信息鉴别模型,持续提升模型性能。 +- 在大模型训练阶段,通常会首先进行个人信息安全影响评估,确保大模型的研发和运营过程满足现有个人信息保护的合规要求。通过核对个人信息保护评估清单,推动面向个人信息保护的产品功能设计,确保人工智能产品设计流程合规,保障数据收集和处理(包括使用、披露、保留、传输和处置)限于所确定的必须的目的。 + +#### 数据安全沙箱技术实现数据可用不可见 + +数据安全沙箱是一项通过构建可隔离、可调试、运行环境安全等功能来分离数据、模型使用权和所有权的技术。在大模型微调场景中,数据拥有方可通过沙箱客户端将数据通过加密信道上传到沙箱中,随后通过数据安全沙箱对加密数据进行预处理和模型微调,并通过安全信道反馈微调后的模型,保证了模型拥有方的预训练模型不出私有域的前提下,数据拥有方可以安全的完成模型微调任务。 + +![](/img/post_pics/cc/LLM-security-2.png) + +#### 投毒检测与数据分析识别有害内容 + +- 在数据投毒检测方面,通过数据去毒工具在数据预处理环节检测训练数据是否存在异常。数据投毒检测可采用多种不同的检测手段。基于规则、关键词进行检测是一种常见但有效的方式,可在丰富完善检测规则的基础上,以较高的效率将被投毒的、危害安全的训练数据进行截获去除。也可采用传统语言模型或大语言模型的手段,针对数据投毒问题进行相应的设计和优化,通过语义相似度等指标进行检测,从而判定出更隐蔽、更难以察觉的数据安全问题。 +- 在数据分析工具方面,可采用分类统计、向量聚类、大模型识别等方法,对数据内容门类、语料形式、语料来源、作者等数据分布进行统计和分析,使参与到模型预训练中的训练数据配比均匀、优质来源和优质形式的数据占比较高,修正性别、民族、宗教、教育等统计偏见,使模型在运营阶段避免可能存在的安全性、公平性等问题。 + +### 模型层面,提示词攻击诱发模型脆弱性风险 + +大模型在模型开发和运营阶段都会面临多种模型内外部的风险,主要包括提示注入攻击等安全性问题、健壮性不足、偏见歧视以及模型运营风险等问题。提示注入攻击成为大模型安全性首要风险。 + +**提示注入攻击是一类以输入提示词作为攻击手段的恶意攻击。**攻击者精心构造和设计特定的提示词,达到绕过大模型过滤策略的目的。根据窃取目标和攻击手段不同,可将提示注入攻击细分为以下三类。 + +- 目标劫持,攻击者通过输入恶意示例的方式劫持模型的输出结果,并要求模型输出与其原输出内容不同的特定结果,从而恶意篡改生成内容。 +- 提示泄露,攻击者通过一些诱导性的上下文提示,窃取大模型预制的初始化提示内容,包括模型应该遵循的规则和特定敏感话题。攻击者可以通过该类攻击手段了解大模型的行为模式或者过滤策略。 +- 越狱攻击,攻击者通过模拟对话、角色扮演等虚构场景和行为方式,设定一系列特定的问答规则,尝试分散大模型的注意力,规避过滤策略,生成带有恶意目的的特定输出结果。 + +除直接对大模型的输入内容进行提示注入攻击,攻击者也可以通过文件中内嵌恶意代码等形式间接进行提示注入攻击。以微软NewBingChat为代表的大模型,其结合检索和API调用功能的新组件引入了间接提示注入的风险。攻击者有可能通过在提示词中嵌入含有恶意代码或有害内容的网页链接或文件等手段,试图规避输入和输出端的过滤机制,以生成特定的恶意内容。 + +**大模型在健壮性和泛化性方面仍然面临挑战。**与传统的小参数量机器学习模型相比,虽然大模型通过使用亿级参数的训练数据进行无监督学习表现出对抗样本攻击和外部干扰的相对强健性,但仍存在健壮性和泛化性不足的潜在风险。例如,在大模型的输入提示词中引入一定程度的错别字符或文字、逻辑错误的词句以及段落等内容,会导致大模型理解偏差以及生成内容错误。 -### 参考 +**大模型的决策偏见歧视问题愈发突出。**大模型的算法决策公平性是可信赖能力的重要指标,尤其在金融、医疗、教育等特殊行业中,这一指标对于处理关键问题的理解和生成任务至关重要。首先,预训练数据自带的偏见歧视会导致预训练模型进一步放大偏见问题,长尾问题仍然是潜在偏见之一。其次,大模型本身可能根据数据样本的分布和属性,进一步提升对某类样本的敏感度,从而间接放大对这些偏见性知识的感知,进而导致更为严重的歧视性内容生成。 +**大模型运营面临多方面挑战,API安全问题至关重要。**当前,模型即服务(MaaS)等高效而敏捷的部署方式正逐步成为现有大模型系统与服务的主流形式。一方面,在大模型服务实际运营环节,存在诸多服务运营相关的风险,包括但不限于批量注册、盗号、撞库等账号安全性问题,以及恶意使用、机器作弊、审核资源浪费等运营安全性问题。以ChatGPT为例,该服务推出仅两个月,注册用户已超过1亿。随着用户规模不断增长,各类违规账号也在不断活跃。于是自2023年4月起,OpenAI大规模封禁各类违规注册账号。另一方面,大模型主要通过API提供对外服务。在服务运营阶段,攻击者可能通过注入漏洞利用攻击、未授权漏洞利用攻击、越权访问漏洞利用攻击、代码设计漏洞攻击以及第三方组件漏洞利用攻击等方法,引发API崩溃、数据泄露以及拒绝服务等严重问题。例如,研究人员发现通过提示词混合Python代码的模板函数可以利用大模型应用框架LangChain的接口远程执行任意Python代码。 + +在模型层面,可信赖实践可从设计开发、模型训练和部署运行三个阶段展开。设计开发阶段主要涉及大模型研发前期的安全和伦理设计评估;在模型训练阶段,主要涉及大模型预训练、微调过程的可信赖能力检测、加固措施;在部署运行阶段,主要涉及大模型在运营过程中的运维能力,以增强用户对于模型运营的信任度。 + +#### 安全和伦理设计评估为大模型研发提供全方位保障 + +大模型的安全性设计评估是面向大模型设计初期的一项安全性评审工作,主要涉及安全审核和安全功能设计两方面。 +- 在安全审核方面,通常会根据大模型设计需求构建威胁模型,并生成安全设计核查表对大模型安全性设计进行评审,保障大模型的设计需求满足安全合规要求。 +- 在安全功能设计方面,大模型研发人员会根据安全审核结果,对大模型进行安全功能设计,包括但不限于生成内容过滤机制、生成内容标识、投诉反馈功能等。 +- 大模型的伦理设计评估主要依据人工智能伦理治理相关法律法规和标准文件,面向数据、算法以及应用管理风险三方面,围绕产品设计、开发、部署、运营的全生命周期,分阶段、分目标的对大模型伦理风险进行分类分级管理,并根据风险的等级进行内部自评估以及外部专家评审,以确保大模型的训练数据、决策机制以及生成内容符合伦理道德。目前,针对大模型伦理评估工作,商汤建立了覆盖产品全生命周期的风险控制机制,初步形成了大模型的伦理治理闭环。通过建立数据风险、算法风险以及应用风险三方面的伦理评估机制,对产品设计、开发、部署、运营的全生命周期实施分阶段、分目标的伦理风险分类分级管理,并建立了配套的风险自查、评估、审查和跟踪审查流程。 + +#### 评测与对齐是模型训练可信赖的关键技术措施 + +大模型的模型评测和对齐技术是目前解决模型安全性、健壮性、公平性不足的主流方法,通过将评测结果作为奖励模型的反馈优化数据,对模型进行针对性的微调与对齐,大模型能够在模型层面更可靠、可信。 + +**大模型可信赖评测是提升模型抵抗外部恶意攻击、干扰信息以及决策偏见的重要手段。**大模型可信赖的重点评测对象是安全性、健壮性以及公平性。 + +- 在安全性测试方面,评测人员通常采用对抗性提示的方式对大模型进行目标劫持、提示泄露以及越狱等安全性评测。 +- 在健壮性测试方面,评测人员通常会采用错别字、同义替换、无关提示、修改语义等方式,对生成内容的一致性、稳定性进行评测。 +- 在公平性测试方面,评测人员会根据模型业务特性,针对年龄、国家、性别、种族等敏感属性进行公平性评测,通过比对输入内容中是否含有敏感属性的输出结果差异,统计模型的公平性表现。在评测完成后,评测人员会协同研发人员共同构建面向安全性、健壮性和公平性的模型加固方案,包括但不限于增量学习、设计针对性的微调提示问答对、增强奖励模型的针对性训练等。 + +**思维链技术有效提升模型逻辑表达能力。**为保障大模型的生成内容具备更加合理的推理性逻辑表达,微调阶段的标注人员可通过思维链技术,在同一提示词中引入多项解释性示例,引导模型生成具备一定推理逻辑的回答。比如,在数理逻辑任务中,可在示例部分编写步骤分解形式的解释说明内容,指导模型更容易生成推理步骤清晰,准确性高的回答内容。 + +![](/img/post_pics/cc/LLM-security-3.png) + +**人类反馈强化学习(RLHF)是现阶段大模型对齐研究的主要方法。**RLHF是一项通过人工反馈回答内容的好坏顺序指引大模型的价值观与人类对齐的技术。目前,包括OpenAI、谷歌、百度、商汤科技等主流大模型均采用了RLHF技术对大模型进行价值对齐调优。比如,商汤科技已经将模型评估测试与RLHF技术结合,将相关测试结果反馈于模型强化学习的过程之中,帮助进一步提升大模型风险防御能力。 + +#### 投诉反馈、风险监控以及应急处置构建模型运营能力 + +投诉反馈机制是针对大模型生成内容优化更新的重要手段。目前投诉反馈机制主要是通过成立投诉反馈监管治理机构,对所有的不良违法生成内容进行处理。为了更好的推动模型的持续优化,模型更新的研发人员会定期对生成内容的投诉和举报进行分析和总结,以便发现问题的根源,并采取措施防止类似问题再次发生。 + +风险监控有效助力大模型良性运营。在模型运营能力建设方面,运营人员会持续对大模型的运营情况进行风险监控并对有害内容进行溯源,通过对大模型记录的用户上传内容、用户上传时间、IP地址、设备信息等信息进行核查,可实现对该内容的制作者和使用者进行追溯。 + +应急处置用户恶意行为抑制有害内容生成与传播。大模型运营期间运营人员会对用户异常行为、违规用户帐号进行监控处置。针对用户异常行为,运营人员通过对用户行为进行分析,根据异常活跃度、登录情况以及输入内容进行判断处置。针对违规用户帐号,运营人员通过帐号管理功能实现对恶意用户的限期改正、暂停使用、终止帐号等措施,防止有害内容的进一步生成和二次传播。 + +### 生成内容层面,安全风险和不可追溯是重点难题 + +当前,大模型的生成内容中仍然存在一定程度的内容安全和不可追溯风险,主要包括虚假有害内容、上下文逻辑性错误、问答与提问的相关性较差、与社会主流价值观冲突等风险,进一步降低了以大模型为生产工具的恶意行为的门槛,对个人、组织以及社会的稳定发展造成严重影响。其主要风险包括以下几方面: + +**生成内容“幻觉”现象频发。**大模型对输入的问题生成不真实、与现实世界常识相违背的虚假有害信息的现象,被称为“幻觉”问题。大模型常见的幻觉主要有三类:第一是和用户输入冲突的幻觉,大模型的理解能力极大依赖于训练数据集的规模、种类、样本的丰富度,理解能力的不足将会导致大模型无法准确生成用户输入的问题答案,影响大模型的生成内容可信度。第二是和已生成的上下文冲突的幻觉,尽管目前大模型具备广泛的世界知识,但其仍是一个黑盒、逻辑推理不够精确的系统。大模型通过理解输入内容的token,预测并逐字逐句生成输出结果,其生成的内容虽符合训练数据中语句的表达连贯性,却可能缺乏合理、清晰的逻辑性,与上下文内容冲突或生成重复性内容。第三是和事实知识冲突的幻觉,这一类幻觉的研究难度更大,对用户实际使用体验的干扰也最大。例如,大模型在生成医疗建议时可能会捏造错误的药品剂量,误导缺少专业医学知识的用户,直接危及用户健康。 + +**生成内容与社会主流价值观冲突。**大模型的生成内容的安全性问题至关重要,如果大模型生成民族仇视、偏见和歧视、政治和军事敏感、淫秽色情以及恐怖暴力等恶意内容,会对传统道德和社会核心价值观造成冲击,对个人、组织和社会都具有极其严重的负面影响。 + +**生成内容欠缺合理、科学的推理过程。**目前大模型的可解释性问题仍然研究学者重点关注的方向,针对大模型的可解释性研究主要分为事前解释和事后解释,其中事前解释是通过研究不同特征对预测结果的影响程度进行解释说明,事后解释更加侧重利用规则以及可解释性强的算法评估原有大模型的可解释性。然而,大模型所使用的训练数据和算法结构仍然是黑盒,难以完全解释目前大模型的内在机理和决策依据。 + +**生成内容不易追溯和保护。**大模型由于具备通过学习海量的世界知识生成内容的能力,因此在训练数据和生成内容方面会产生一系列的版权归属和保护难题。目前大模型服务通常会采用数字水印技术在生成内容中嵌入不可见、具备可追溯能力的标识,该类标识一般内含用户ID信息、大模型服务信息以及时间戳等信息,用于追溯不良违规生成内容,但目前仍然面临生成内容被二次创作、剪辑和裁切之后,标识内容可能会无法读取等问题,导致无法正确追溯到原始的大模型服务,难以明确界定责任归属。在知识产权的溯源方面,由于现有大模型的学习机制,其生成的内容有可能与原始的训练数据具有一定相似度,难以界定生成的内容是否对原始作品产生侵权行为。 + +**生成内容误用滥用现象对个人、团体以及社会造成不良影响。**由于目前仍然缺乏对于使用大模型生成能力的有效监督手段,部分用户在未充分进行培训和教育的前提下,可能将隐私信息误输入到大模型中,导致个人信息泄露。例如,2023年3月,三星半导体部门员工因三起利用ChatGPT处理办公文件和修复程序源代码等事件,导致公司机密泄露。部分恶意使用者利用FraudGPT等恶意大模型作为违法活动的工具生成诈骗短信和钓鱼邮件,通过代码生成工具开发恶意程序、脚本等,窃取他人敏感个人信息。 + +在生成内容方面,可信赖实践主要涉及生成内容评测、内容审核机制以及内容可追溯能力的建设,实现内容安全可控并具备一定程度的可追溯能力。为缓解大模型“幻觉”现象,生成内容评测主要聚焦真实性、准确性以及安全性。为降低生成内容的安全性风险,内容审核机制通常会采取机器审核和人工复审结合的形式。为进一步提升二次编辑导致生成内容难以追溯的问题,数字水印技术正在逐渐提升健壮性能力。 + +#### 生成内容评测为模型优化更新提供反馈样本 + +生成内容真实性测试抑制深度合成图像等恶意攻击。评测人员可通过内容真实性测试检测图像中面部表情一致性与动作序列连贯性,并结合频谱、声音和文字等多模态信息,准确鉴别包括图像编辑、换脸、活化以及各种先进扩散模型合成的人像图像。 + +生成内容准确性测试客观反馈大模型“幻觉”水平。在生成内容准确性测试方面,评测人员可采用人工打分或自动化评估等形式,对生成内容的质量进行评估,目前商汤科技主要采用整体评价、相关性、可读性、拟人性、专业性等五个指标对文本生成质量进行评价,并从生成内容事实性错误,生成内容逻辑性错误,生成内容和问题相关性错误等三个方面对文本生成准确性进行评价。 + +生成内容安全性评测守卫大模型生成内容红线。在生成内容安全性测试方面,评测人员可采用“红队测试”的方法,通过构建恶意问题数据集对生成内容安全性进行评测,其评测的维度包括但不限于身心健康、隐私财产、伦理道德、偏见歧视、违法犯罪、政治敏感等话题。 + +#### 内容审核机制有效过滤有害输入及输出内容 + +大模型的生成内容审核机制主要由机器审核和人工复审构成。机器审核是一种对大模型有害输入、输出内容进行检测、识别的机制,可以有效识别并过滤有害、不准确、不恰当的内容,通常采用关键词和语义分析等技术。人工复审机制是目前实现大模型生成内容安全的重要保障。通过人工复审的方式,对大模型输入、输出的内容进行再次核验。人工复审需记录审核时间、审核覆盖度、抽检方式、审核处置结论等信息。除人工复审机制外,还可以采用巡查审查等方式,定期对经过了机器审核、人工复审的内容进行整体巡查,并及时根据巡查结果优化调整审核规则及策略。巡查审核需记录审核时间、审核覆盖度、抽检方式、审核处置结论等信息。 + +![](/img/post_pics/cc/LLM-security-4.png) + +#### 健壮性数字水印助力实现内容可追溯可问责 + +数字水印技术是一种将信息嵌入到数字媒体(如图像、音频和视频)中的技术,以便在不改变原始媒体质量的前提下,对其进行标识或保护。这种技术目前被广泛应用于版权保护、内容认证和数据管理等领域。数字水印的健壮性是指其在面对压缩、滤波、剪切、旋转、缩放等攻击时仍能被正确检测的能力。为保障生成内容的可追溯性,通常会采用纠错编码、多重水印、深度学习等水印嵌入方案进一步提升数字水印的健壮性。 + +![](/img/post_pics/cc/LLM-security-5.png) + +## 附录 + +[2023 大模型可信赖研究报告](/pdf/2023大模型可信赖研究报告.pdf) [可信执行环境保障大模型安全](https://blog.csdn.net/qq_43543209/article/details/135683986) [如何构建安全可信的AI大模型](https://mp.weixin.qq.com/s/6hdBb0fDQUZIQiHjEnpG5g) [用基于英特尔SGX 的可信执行环境有效应对大语言模型隐私和安全挑战](https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/privacy-security-challenge-large-language-model.html) @@ -211,9 +388,4 @@ TEE 提供了隐私保护和数据安全防护功能的创新解决方案,将 [7 个服务框架 LLMs](https://betterprogramming.pub/frameworks-for-serving-llms-60b7f7b23407) [保护 Kubernetes 工作负载的安全:签名和加密容器映像的实用方法](https://itnext.io/securing-kubernetes-workloads-a-practical-approach-to-signed-and-encrypted-container-images-ff6e98b65bcd) [大型语言模型的机密容器](https://pradiptabanerjee.medium.com/confidential-containers-for-large-language-models-42477436345a) -[2023 大模型可信赖研究报告](https://www.baogaoting.com/info/550108) [LLM Guard - 大规模语言模型交互的安全卫士](https://blog.csdn.net/gitblog_00056/article/details/139085060) - -### 大模型可信赖研究报告 - -[2023大模型可信赖研究报告](/pdf/2023大模型可信赖研究报告.pdf) diff --git a/themes/fluid/source/img/post_pics/cc/LLM-cc-9.png b/themes/fluid/source/img/post_pics/cc/LLM-cc-9.png deleted file mode 100644 index 00028cf..0000000 Binary files a/themes/fluid/source/img/post_pics/cc/LLM-cc-9.png and /dev/null differ diff --git a/themes/fluid/source/img/post_pics/cc/LLM-security-1.png b/themes/fluid/source/img/post_pics/cc/LLM-security-1.png new file mode 100644 index 0000000..45f18d0 Binary files /dev/null and b/themes/fluid/source/img/post_pics/cc/LLM-security-1.png differ diff --git a/themes/fluid/source/img/post_pics/cc/LLM-security-2.png b/themes/fluid/source/img/post_pics/cc/LLM-security-2.png new file mode 100644 index 0000000..82409f7 Binary files /dev/null and b/themes/fluid/source/img/post_pics/cc/LLM-security-2.png differ diff --git a/themes/fluid/source/img/post_pics/cc/LLM-security-3.png b/themes/fluid/source/img/post_pics/cc/LLM-security-3.png new file mode 100644 index 0000000..6275732 Binary files /dev/null and b/themes/fluid/source/img/post_pics/cc/LLM-security-3.png differ diff --git a/themes/fluid/source/img/post_pics/cc/LLM-security-4.png b/themes/fluid/source/img/post_pics/cc/LLM-security-4.png new file mode 100644 index 0000000..206d03c Binary files /dev/null and b/themes/fluid/source/img/post_pics/cc/LLM-security-4.png differ diff --git a/themes/fluid/source/img/post_pics/cc/LLM-security-5.png b/themes/fluid/source/img/post_pics/cc/LLM-security-5.png new file mode 100644 index 0000000..aa0dfa2 Binary files /dev/null and b/themes/fluid/source/img/post_pics/cc/LLM-security-5.png differ