为认知 Core 做贡献
旨在丰富智能体角色核心的贡献者有几个关键的贡献途径,每个途径都专注于人工智能开发的不同方面。
贡献模型
贡献者可以通过两种形式贡献模型:
- 模型增强提交/新模型提交:使用收集到的数据对大语言模型(LLM)进行训练或更新。这可以通过使用公共数据存储库或专有数据集来完成,目的是使人工智能的响应能够针对特定领域进行定制。
- 预训练模型:开发用特定领域知识进行预训练的新模型,以提高大语言模型在特定领域的性能和知识广度。
- 角色卡提交:使用协议应用程序中现有的基础模型,为智能体提交新的角色卡。
模型提交小贴士:
- 模型命名:全部使用小写字母,不包含空格,确保名称有意义。
- 模型规格:
- 将模型文件量化至至少 4 位。
- 模型参数限制在不超过 130 亿个。
- 模板说明:明确说明所使用的聊天模板,例如“羊驼模板”。
- 响应格式:模型应使用阿里聊天格式,将动作包含在星号内。
- 兼容性检查:确保模型与现有人工智能系统兼容。
- 文档说明:提供关于模型功能和用例的全面文档。
- 道德考量:遵循符合道德的人工智能实践,避免偏见。
- 性能指标:附上验证结果或性能指标。
- 更新与维护计划:概述未来模型更新和维护的计划。
贡献新数据集
- 贡献者可以提供涵盖广泛主题的多样化数据集,丰富人工智能的知识库,增强其在各个领域准确响应的能力。
- 这些数据集的主要用途是用于基于指令的微调。这个过程涉及根据提供的数据调整人工智能模型,使其更好地理解和遵循特定的指令或准则。
- 提交的数据集最好采用.csv(逗号分隔值)格式。
要提交新数据集,请选择 “I have a new Dataset”。
除此之外,为了预训练目的,数据集贡献还可以通过其他方式提交。以下是可以收集的不同类型的数据集,以及在模型中使用它们的其他方法:
- 数据收集与转录:
- 收集特定领域信息:专注于从各种来源收集与 Virtual 专业领域相关的信息。这一步对于构建全面的知识库至关重要。
- 标注转录数据:突出转录数据中的关键信息和上下文。标注是有效理解和利用收集到的数据的关键。
- 系统整理:确保数据得到系统整理。正确分类对于在相关知识领域有效地训练人工智能至关重要。
- 拓展虚拟角色的个性:
- 故事与背景拓展:提交内容可以包括为虚拟角色提供详细的故事背景或扩展的背景故事,为其角色增添深度和丰富度。
- 特质细化:贡献内容可以详细阐述虚拟角色的特定个性特质或特征,有助于塑造一个更细腻、更具亲和力的人工智能角色。
- 此提交内容也可以整合到提示卡中。有关提示卡整合的详细指南和格式要求,请参阅“角色卡提交”部分。
数据集贡献小贴士:
- 数据集的多样性和包容性:确保不同数据源的代表性。
- 质量保证:对准确性和相关性进行全面检查。
- 数据匿名化:对用户生成内容中的敏感信息进行匿名化处理。
- 法律合规:确保数据集符合数据保护法律。
- 元数据包含:提供详细说明来源、收集方法和预处理的元数据。