25 %
SALE
25 %
SALE
25 %
SALE
25 %
SALE
25 %
SALE
25 %
SALE

智能语音交互,录音文件,实时语音识别及合成

¥165.00¥15,000.00

清除
SKU: N/A 分类:

阿里智能语音交互是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。包括录音文件识别,实时语音识别,一句话语音识别,语音合成等系列产品,应用场景包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例。支持3个月免费试用,请联系云慧采客服。

智能语音系统产品

  • 录音文件识别
    对用户上传的录音文件进行识别,上传完之后24小时内完成识别并返回识别文本。可用于呼叫中心语音质检,庭审数据库录入,会议记录总结,医院病历录入等场景。
  • 实时语音识别
    对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、法庭庭审记录等场景。
  • 一句话识别
    对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App,智能家电,智能助手等产品中。
  • 语音合成
    能将用户提交的文本转换成自然流畅的语音,目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于智能客服、通知、任务播报、文学有声阅读等场景。
  • 语音合成声音定制
    为企业提供深度定制TTS声音的能力。通过先进的深度学习技术,用更少的数据量,更快速高效地为客户定制个性化语音合成声音。将自然流畅的TTS声音带到服务或设备上。
  • 语音本地化部署方案
    提供轻量化本地部署方案,支持语音识别、语音合成、语言模型自学习工具的本地化部署,帮助企业在自己的数据中心零时差使用与阿里云公共云同款的智能语音服务。
  • 智能语音设备端解决方案
    针对类似故事机、音箱等各种语音交互设备,提供包括音频信号处理,打断唤醒,语音识别,语音合成等全链路语音交互能力。以SDK的方式集成,支持多种不同硬件平台。按照设备激活数量收费,收费更加灵活可控。
  • 语言模型自学习工具
    用户可以自行上传数据,对阿里的语音技术进行深度定制,从而提升特定业务领域的识别准确度。目前仅支持上传文本数据对语言模型进行定制。未来会推出上传音频数据对声学模型进行定制。
  • 便携智能语音一体机
    便携智能一体机由达摩院结合应用场景现有问题和用户实际需求,由智能语音识别技术+智能采集阵列硬件+先进的音频处理算法组成。 打破传统场景记录方案,完美解决记录速度慢、记录不完整、速记成本高的问题。具备会后记录实时成稿,参会人无感使用,无需布线等特点,让用户使用更加轻松,记录效率更高。

产品优势

  • 识别准确率高
    国内独创的字级LC-BLSTM/DFSMN-CTC建模,相对业界传统CTC方法降低了20%的错误率,大幅提高了语音识别的精度。
  • 超快的解码速率
    国内独创的LFR解码技术, 在不损失识别精度的情况下,将解码速率提高了3倍以上,大幅缩短了反馈时间,提升用户体验。
  • 独创的模型优化工具
    业内唯一一家提供自学习平台的系统。同时支持热词定制和模型定制。用户可以根据业务需求上传相关的数据,对各种语音产品进行定制,形成自己的专属模型,从而最大限度的提升识别效果。
  • 广泛的领域覆盖
    目前已经积累了大量行业客户,业务场景包括智能问答、智能质检、庭审记录、字幕翻译、语音助手等等。在金融、保险、司法、智能家居等多个领域均有成熟的应用案例,可以满足不同客户多样化的需求。

其他信息

产品及规格

录音文件识别20000小时资源包, 实时语音识别10000小时资源包, 一句话识别10000千次资源包, 长文本语音合成100W字, 语音合成1000W次