让机器能说会写，训练更灵敏的OCR模型和ASR模型

为了实现这一目标，百度需要庞大而多样的数据集来训练他们的模型。他们的团队需要采集和标注稀缺小语种图片、语音以及手写体。

问题&解决方案

对于机器听说读写能力的提升，数据量是极大的瓶颈

问题：稀缺语言数据采集困难。由于该项目主要是对稀缺语言进行图片、语音以及手写体的采集，因此需要懂该稀缺语言的人在当地进行收集；此外，由于地域问题以及采集需求复杂，数据的采集与收集方式成为一个比较大的问题；最后，多形式与多种复杂场景的数据给质检带来比较大的难题。

解决方案：星尘数据通过调用在全球的采集资源，寻找最适合的采集伙伴对稀缺语言进行采集；在短时间内为了适配采集和标注的需求开发更加适合的软件以满足采标的需求；通过多层质检和动态监控保障稀缺语言标注的质量。

未来

更精准的OCR系统和ASR系统

星尘数据采集及标注系统可以帮助百度训练更精准的OCR系统和ASR系统，未来将能服务于更多的场景，在不同场景下提高效率。

某大型AI科技公司研发主管

"在过往合作中，星尘能够支持我们定制化程度超高的数据需求，并依靠其丰富的海外资源，综合采集、标注、质检、输出等环节，构建专业的一站式数据服务解决方案。"

"星尘的平台可以实现API化的数据验收、数据质量实时监测，输出高效、高质、精准且安全的数据；并且星尘团队依靠在无人车领域的丰富标注经验可以给到我们专业建议，这一点是难能可贵的。"

某无人车科技公司感知系统总监

"星尘是我们在建设开拓融媒体国家重点实验室道路上的可靠合作伙伴，他们的系统具备高实用性、实践性，在标注层面用算法辅助大幅度提高效率；项目人员的新闻敏感度和政治素养使得他们高质量地完成新闻稿件标注工作。"

某国家权威国家通讯社技术主管

请填写您的企业邮箱，可获取更详细的介绍资料、个性化购买咨询服务

了解价格

公司地址：北京市朝阳区东三环中路39号建外SOHO东区B座20层