NVIDIA推进语音AI,具有尖端的长尾小鹦鹉和金丝雀模型

NVIDIA Advances Speech AI with Cutting-Edge Parakeet and Canary Models

James Ding Jun 04, 2025 17:30

NVIDIA's latest speech AI models, Parakeet and Canary, achieve top rankings on the Hugging Face ASR leaderboard, offering unmatched accuracy and speed for实时应用程序。

NVIDIA在语音AI技术中的持续进步为自动语音识别(ASR)景观树立了新的基准。根据NVIDIA的说法,他们的最新模特Pareakeet和Canary正在以最高的性能指标和创新功能领导该行业,并在拥抱面孔ASR排行榜上确保了高位置。

突破性

NVIDIA PARAKEASET TDT 0.6B V2模型是出色的表演者,仅获得6.05%的单词错误率(WER),是其类别中最低的。该模型因其迅速的推断能力而受到赞扬,其执行速度比可比模型快50倍,以及精确的时间戳和歌曲与乐谱转录之类的功能。对于寻求高准确性和速度的开发人员,这种属性使其成为首选。

全面的语言支持

值得注意的是,Nvidia的模型提供了广泛的语言支持。复发性神经网络传感器(RNNT)多语言模型涵盖了25种语言,促进了全球沟通。这些模型集成了Silero VAD,以在嘈杂的环境(例如医院和机场)中保持准确性,即使在具有挑战性的条件下也可以确保可靠的转录。

模型的突出显示和部署

均是金属猫和金丝雀模型是Nvidia Riva的一部分语音和翻译微服务。这些模型从研究原型过渡到可扩展部署,受社区反馈和现实世界需求的影响。这些模型可用于商业用途,为开发人员提供了可靠的工具,可创建企业级语音解决方案。

现实世界应用程序

nvidia的语音AI模型设计用于从媒体和娱乐到医疗保健和金融的各种应用程序。例如,长尾小鹦鹉模型非常适合媒体应用和边缘设备,提供清晰的命令功能。同时,金丝雀模型在多语言任务中表现出色,对语音识别和跨主要语言的翻译进行了高度排名。

总体而言,NVIDIA继续推动语音AI中可能的界限,这是绩效的最先进的模型,不仅是足够的性能,而且还可以满足多样性的范围,以满足多样化的行业。

Previous PostNvidia Blackwell在MLPERF培训v5.0中取得2.6倍的性能提升
Next Post没有了