高质量大模型训练数据集

大规模高质量成品训练数据集,助力企业高效构建、训练和部署机器学习模型
  • 教育题库

    星辉注册科技高质量教育题库,题库收录近14年以来的小中高试题试卷,覆盖率高达95%以上。总量达20万份以上。试题属性包含学科、章节、知识点、题型、难度系数等十余类;试卷属性包含学科、教材版本、年份、地区、学校、年级等十余类;所有学科考点覆盖率100%。
    -了解更多
  • 多轮对话数据集

    星辉注册科技1500万高质量中英文多领域对话数据集,中英文剧本(电影、电视剧、剧本杀)6万,英译其他47语种, 1.1亿对,中译其他50语种,2.1亿对,英中950万对,可用于大模型训练和相关的知识增强服务。
    -了解更多
  • 文生图数据

    星辉注册科技该数据库助力文生图大模型准确将文本提示转化为图像,不断实现更加良好的生成效果。
    -了解更多
  • 职业题库

    职业考试类别广,包括计算机、工程、金融、医学等众多职业资格认证考试的真题卷,模拟卷,试题带答案解析,共计8000万道。通过对数据库进行严格的挑题、录入、排查、筛重、解答、复核、校稿等加工环节,各环节都由专人审核,形成完整的质量保证体系。所有题目均提供word可编辑版本、json格式。
    -了解更多
  • 文章校阅写作数据

    星辉注册科技文章校阅写作数据包括语法、语序、标点、字词等错误&正确文本对数十万条,扩写、润色、改写的文章数十万篇,可用于文章扩改润、校阅等数据需求。
    -了解更多
  • 医疗数据库

    星辉注册科技医疗数据库涵盖100G医疗知识文本数据库,来自于国内外多方搜索平台的医学论文,以及100G包括各种医学影像,如CT、MRI、超声等的医学图像数据。
    -了解更多
  • 世界知识类书籍、期刊、论文及高价值社区文本数据

    星辉注册科技世界知识类数据包括书籍、期刊、论文及高价值社区文本数据,其中高质量外文文献期刊8500万篇,英文高质量电子书200万本,中英文社区文本(网页数据)200亿,高质量中文书籍/论文(LatTex/Markdown格式)2亿页
    -了解更多
  • 图片生成及隐式/显示推理多模态数据

    星辉注册科技图片生成及隐式/显示推理多模态数据库包括600万图文复杂描述,600万图文推理问答对,100WTop100艺术家画作超高清扫描图片。
    -了解更多
  • 专业知识类期刊、专利、代码

    星辉注册科技专业知识类数据库包括期刊、专利、代码,其中中文数字专利4000万,程序代码(代码注释)20万
    -了解更多
做AI行业客户的数据参谋