Deepgram筹集了2500万美元用于构建定制企业语音识别模型

崔弘浩
导读 Deep Com,Y Combinator的毕业生,开发定制语音识别模型,今天宣布,该公司筹集了由Tiger Global牵头的2500万美元B轮融资。首席执行官兼

Deep Com,Y Combinator的毕业生,开发定制语音识别模型,今天宣布,该公司筹集了由Tiger Global牵头的2500万美元B轮融资。首席执行官兼联合创始人斯科特·斯蒂芬森(Scott Stephenson)表示,所得款项将促进Deepgram平台的开发,该平台使企业能够实时处理会议,电话和演示文稿。

到2025年,语音和语音识别技术市场预计将 达到318.2亿美元,这将受到银行,医疗保健和汽车行业新应用的推动。实际上,据估计,有五分之一的人每天与智能扬声器互动,最近在该国通过语音进行的Google搜索所占的份额已超过30%。

总部位于旧金山的Deepgram由密歇根大学物理学毕业生诺亚·舒蒂(Noah Shutty)和史蒂芬森(Stephenson)博士于2015年创立。该学生以前曾在加利福尼亚大学戴维斯分校的大型地下氙探测器(一种大型且灵敏的暗物质探测器)工作,并曾帮助开发该大学的戴维斯氙气双相液态氙探测器计划。该公司的平台利用了一个后端,该后端避免了在启发式,基于统计和完全端到端AI处理方面的手工设计流水线,并且在配备有高端GPU的PC上训练了混合模型。

“在过去的一年中,我们看到了语音识别市场的空前发展,”斯蒂芬森在博客中写道。“当我们在2020年3月首次宣布我们的A系列产品时,企业开始意识到,量身定制的演讲方法可能会对他们的业务产生影响。但是,没有“争夺空间”时刻会促使公司采用新的解决方案,尤其是当他们的现有提供商正在“精打细算”时。当命中时,这种情况很快就改变了。公司处在一个拐点,被迫快速跟踪数字化转型计划,将经过深思熟虑的多年计划压缩到短短几个月内,并迅速将团队迁移到远程员工队伍。”

Deepgram的每个模型都是经过全面培训的,可以以从呼叫和播客到录制的会议和视频的格式提取文件。该平台处理语音,该语音存储在所谓的“深度表示索引”中,该索引按语音而不是单词对声音进行分组。客户可以按其发音方式搜索单词;即使它们拼写错误,Deepgram经常可以找到它们。

斯蒂芬森说,Deepgram的模型收集了诸如麦克风噪声配置文件以及背景噪声,音频编码,传输协议,口音,价位(即能量),情感,对话主题,语速,产品名称和语言之类的信息。此外,他声称,与行业基准相比,它们可以将语音识别准确度提高30%,同时可以将转录速度提高200倍,同时可以处理数千个同时的音频流。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!