ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数据采集,AI产业落地的“助推器”丨曼孚科技

2020-09-15 19:50:22  阅读:236  来源: 互联网

标签:数据服务 AI 人工智能 曼孚 采集 助推器 语音 数据


算法、算力与数据是构成人工智能的三个基本要素。随着人工智能技术在算法与算力层面达到阶段性基本成熟,人工智能行业掀起一轮落地应用的热潮。

从技术层面分析,本轮人工智能落地热潮主要集中于计算机视觉领域和语音交互领域,较为依赖机器学习领域中的深度学习方式。​

目前,主流的深度学习方式以有监督学习模式为主。在该模式下,算法训练需要依靠标注数据对学习结果进行反馈,对于数据有着强依赖性需求,这也带动了AI基础数据服务行业的繁荣。

AI基础数据服务是指为AI算法训练及优化提供相关产品与服务,主要以数据集产品和数据资源定制服务为主,具体包括数据采集、数据清洗和数据标注等内容。

其中,数据采集是指对目标领域、场景的特定原始数据进行采集的过程,采集的数据以图像类、文本类、语音类、视频类等非结构化数据为主。从业务流程角度来看,数据采集是AI基础数据服务行业全流程服务中的“第一步”,采集到的非结构化数据经过清洗与标注,才能被用于机器学习训练。

因此数据采集业务也是众多数据服务企业较为核心的业务之一,一家优秀的数据采集服务企业应当具备如下优势:

1.拥有丰富的采集渠道

采集的数据按照不同类型可以划分为图像、语音、文本、视频等内容,每一个大类又可以细分为众多小类。

以语音采集为例,按照语种的不同,可细分为普通话采集、方言采集、英语采集、小语种采集等,这对数据采集服务企业的采集覆盖能力提出了极高的要求。

正常情况下,出于成本等多方面因素的考量,数据采集服务企业多采用与渠道或者供应链合作的方式来执行项目。

因此,拥有更丰富的方言、小语种、全球各地人脸采集渠道,以及更加稳定采集供应链的数据采集服务企业,将在获取与执行项目时更具优势。

2.拥有对数据预处理的能力

通过采集得到的数据均为原始数据,这些非结构化的数据只有经过清洗与标注才能被唤醒价值,用于算法学习训练。

对于数据标注企业而言,原始数据质量越高、错误越少,标注的效率就会越高,最终产出的数据集质量也越好。

以语音采集为例,每段采集好的语音内容里都会存在有效部分与无效部分。有效部分主要指实质性语音内容,这些是需求方需要的内容;无效部分主要指静默部分、杂音等,这些是需求方不需要的内容。

目前,绝大部分数据服务企业在采集数据的过程中,都不会对数据进行预处理,这与技术能力与采集工具有关。

曼孚科技在实际处理语音采集业务时,会依靠自身采集平台对采集到的原始数据进行预处理,VAD自动切片功能会自动删除数据中的无效部分,切实提升数据质量。

3.拥有特殊场景搭建、采集能力

随着人工智能应用在多个垂直场景领域实现落地,需求方对于场景化数据集的需求量也越来越高。

以目前应用广泛的语音助手为例,为了提高语音助手在不同场景下的识别能力,需要采集特殊场景下语音对话数据集,比如“室外对话数据集”、“室内对话数据集”、“嘈杂环境下对话数据集”等,这对数据服务企业的特殊场景搭建能力提出了新的要求。

未来,随着人工智能商业化程度的不断加深,如何对海量数据进行有效获取、合理分析和妥善利用是摆在一众人工智能企业面前的核心问题。

海量数据浪潮下蕴藏的是无尽的商机,基础数据服务尤其是数据采集服务在数据时代下,将拥有更加广阔的发展空间。

标签:数据服务,AI,人工智能,曼孚,采集,助推器,语音,数据
来源: https://blog.51cto.com/14624568/2533773

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有