Meta开源大模型 (Meta开源模型)

文章编号:3034 更新时间:2024-01-05 分类:互联网资讯 阅读次数:

资讯内容

全球社交、科技巨头Meta在官网开源了全新模型——Guard。

开源大模型开源模型

据悉,LlamaGuard是一个基于Llama2-7b的输入、输出保护模型,可对人机会话过程中的提问和回复进行分类,以判断其是否存在风险。可与Llama2等模型一起使用,极大提升其安全性。

LlamaGuard也是Meta推出的PurpleLlama安全评估项目中,输入、输出保障环节的重要组成部分,这也是在输入输出防护中区分用户与AI风险的模型。

LlamaGuard地址:https://huggingface.co/meta-llama/LlamaGuard-7b

PurpleLlama地址:https://github.com/Facebookresearch/PurpleLlama

本文地址:https://ai.meta.com/research/publications/llama-guard-llm-based-input-output-safeguard-for-human-ai-conversations/

LlamaGuard简单介绍

研究人员设计了一个包含法律和政策风险的安全风险分类体系。分类体系包含6大类可能的安全风险:暴力与仇恨、色情内容、非法武器、犯罪计划等。

此外还详细说明了每个风险类别中的易犯错误

通过使用Anthropic提供的人机对话数据集,对数据进行标记。标记内容包括对话提问与回应中的风险类别及是否存在安全隐患。最终收集了近14000条标注好的对话样本。

再以Llama2-7b作为基础模型,采用指令式学习框架进行训练。此框架将分类任务表述为一个接一个的指令任务。

使LlamaGuard根据输入指令和数据学习进行多类分类。研究人员为用户提问和机器回复分别编写指令,实现对其语义结构的区分。

还采取数据增强方法,强化模型只考虑给定输入中的分类信息。

测试数据

首先在内部测试集上进行验证,LlamaGuard在整体和每个单独分类上的表现都超过了其他内容监管工具。

研究人员采用零样本和少量实例学习的方法,将LlamaGuard迁移到其他公开测试集上进行验证。

测试结果显示,在ToxicChat数据集上,LlamaGuar的平均准确率高于所有基线方法;在OpenAI评估数据集上,LlamaGuard在零样本的情况下与OpenAI内容监管API表现相当

此外,LlamaGuard使用了指令调优,可以适配不同的AI分类法或政策。用户可以通过零样本或小样本的方式便可实现指令迁移,以适配不同的应用场景需求。

(举报)

标签: Llama

本文地址: https://yihaiquanyi.com/article/9d2cab9ad46da91ecd1c.html

上一篇:蚂蚁庄园1217蚂蚁庄园12月13日正确答案以下...
下一篇:已经成功是什么短语已成功近135亿美元马斯...

发表评论