会议语音实时转写捷通华声“灵云智会”系统亮相清华国际学术大会

时间：2018-10-19 15:19:32 来源：互联网浏览次数：我来说两句() 字号：TT

　　10月15日，“包容与多样”无障碍发展国际学术大会在清华大学成功举办。会议现场，捷通华声“灵云智会”语音转写系统将演讲者话语进行实时转写、实时上屏，转写准确率高、断句准确，受到现场各国研究学者、清华师生及各界人士的高度好评。

　　关于语音转写效果，现场一名清华学生说道：这个语音识别出字快、识别率高，断句、标点也很准确，不但方便了我们理解学术报告的内容和整体逻辑，更是让现场的听障人士能直接用眼睛来“听”学术报告。

　　“灵云智会”语音转写系统是什么，在现场是怎样实现语音转写实时上屏的?捷通华声现场工程师介绍说：灵云智会系统，是以灵云语音识别为核心，具备实时语音转写、实时内容校核、实时文字上屏功能的智能语音转写系统，不仅可以应用在各种大型会议上，也能够广泛应用于各种办公会议，帮助完成会议记录。

　　关于现场实时语音识别的整体流程，捷通华声工程师介绍说，首先，演讲者的声音经过麦克风采集，传输至声控台，声控台将声音送至PC上的灵云智会系统;然后，灵云智会系统应用现场服务器上的灵云语音识别能力平台，将语音转写为文字，实时反馈至灵云智会系统;，，应用灵云智会系统的上屏展示功能，把文字投到现场的两块大屏上。

　　灵云智会辅助日中人工同传

　　此次大会上，灵云智会系统与人工同传，结合，实现演讲内容英中、日中等的同声传译与实时上屏。通过灵云智会系统的辅助，一方面，减轻了同传人员的工作强度;另一方面，提升了同传效率，让参会人员能更快、更及时地听到翻译的内容。

　　灵云科技源自清华造，语音技术

　　此次大会上，灵云智会系统应用的是捷通华声，一代灵云语音识别技术(ASR)：在CTC算法的基础上，对建模单元粗粒度、模型训练方法、解码帧率进行创新优化，有效提升了语音识别引擎的执行效率、鲁棒性，增强了对不同口音、语速的适配能力，大幅提升了多人对讲、远场讲话等场景中的语音识别率。

　　目前，灵云语音识别技术已支持中文普通话、英语、粤语、维吾尔语、哈萨克语、藏语安多、藏语康巴、朝鲜语、蒙文、广东阳江话等多种语言识别，并针对金融、电信、公检法、会议、医疗等领域训练了专用ASR模型，为行业客户提供识别率更高的ASR能力。

　　捷通华声董事长张连毅表示，灵云语音识别技术的重大提升，离不开与清华大学“灵云科技源自清华”的战略合作。2013年，清华产业基金投资捷通华声，共同创建“清华灵云人工智能研究，”。2018年，捷通华声与清华海峡研究院共建清华海峡研究院灵云人工智能研究，，张钹院士亲自挂帅，出任研究，，科学家。本次清华国际学术会议实时语音转写的成功，是对清华大学与捷通华声科研团队科研成果的一次，展现，也是捷通华声向清华大学的一次合作成果汇报。

　　灵云智会：语音转录利器

　　灵云智会系统是捷通华声在政府会议、公检法审讯办案、医疗电子病历等场景应用中打磨出来的智能语音转录系统，包含丰富的功能：

　　语音实时转写：开会过程中，发言实时转写，并可在编辑框内实时校正修改，实现会议内容实时上屏与分角色记录;

　　离线录音转写：政府领导外出讲话、司法外出办案问讯、记者采访等场景的录音，可直接在灵云智会系统中转写为文档;

　　语音输入：安装在PC上，让用户可以直接通过麦克风，进行文字输入，提高办公效率。

　　为了进一步提升识别率，在行业客户应用中，捷通华声会为客户提供声学模型、语言模型定制训练服务，快速实现对行业术语、场景环境噪音的优化，为企业提供专属、私有化的语音识别能力。

　　灵云智会系统已广泛服务于大会会议、政府办公会议、公检法庭审与办案、医疗病历录入等场景，给办公带来了巨大便利。正如捷通华声，科学家吕士楠先生说的，AI技术不是阳春白雪，要实实在在服务国家建设和老百姓生活。捷通华声董事长张连毅也表示：我们AI公司要脚踏实地，不断提升算法能力、深入行业了解需求，开发能够“落地应用”的产品与方案，为行业合作伙伴与市场提供更优质的AI技术与产品。

免责声明：本文仅代表作者观点，与新讯网无关。新讯网不对文章所包含内容的准确性、可靠性或完整性提供任何保证。请读者仅作参考，并自行承担全部责任。