Skip to content
English library

推理

满血DeepSeek-R1蒸馏数据集

Play icon crypto ? OpenAI deepseek chatgpt

📚 数据集介绍

本数据集为中文开源蒸馏满血R1的数据集,包含Math、Exam、STEM和General等多种类型数据,总数量为110K。数据集中不仅包含数学数据,还包括大量通用场景数据,旨在帮助复现R1蒸馏模型的效果。

数据集

🔍 数据来源

数据来源于多个高质量数据集,包括Haijian/Advanced-Math、meta-math/GSM8K_zh、EduChat-Math等。每条数据均标注了原始数据源repo,方便溯源。

数据来源

⚙️ 数据蒸馏细节

数据蒸馏过程中,遵循DeepSeek-R1官方提供的细节,如不增加额外系统提示词、设置temperature为0.6、强制输出以"\n"开头等,确保数据质量。

蒸馏细节

📊 数据打分

数据生成结果经过二次校验,并保留评价分数。Math和Exam数据使用Math-Verify和Qwen2.5-72B-Instruct模型打分,其他数据从无害性、有用性、正确性/完整性三个角度打分。

数据打分

⚠️ 局限性

由于数据由蒸馏DeepSeek-R1生成,未经严格验证,在事实性等方面可能存在不足。使用本数据集时,请务必注意甄别。

局限性

Find the plan that's right for you, each plan includes

docs iconsDocs
sheets iconsSheets
slides iconsslides
forms iconsforms
keep iconskeep
sites iconssites
drive iconsdrive
gmail iconsgmail
meet iconsmeet
calendar iconscalendar
Chat_icon@1x iconsChat
docusaurus_keytar iconsjup
docusaurus iconsBusiness
GoogleMaps iconsGoogleMaps
book iconbook
books iconbooks
security iconsecurity
restaurant iconrestaurant
thought iconthought
recipe iconrecipe
news iconnews
deepseek icondeepseek
deepseekr1 icondeepseekr1
deepseekr2 icondeepseekr2
deepseekr2 icondeepseekr3
deepseekr7 icondeepseekr7

Released under the MIT License.

Open has loaded