语音文档检索
语音文档检索是针对以声音形式存在的文档的信息检索。其基本定义为:是给定一个检索以及一定数量的语音文档,返回与检索需求关系最为接近的文档集合。从狭义上说,检索需求指的是一些检索词或短语,而相关性指的是语音内容与检索需求的关系。从广义上说,检索需求还包括说话人,说话风格等高层次的信息。
最基本的语音文档检索系统有以下三个主要任务:
- 对语音文档进行切析与识别,提取出语音中内容信息。
- 对于识别结果建立索引。
- 根据用户的检索需求,返回语音文档。
语音文档检索需要从语音中提取信息,而提取信息的方法包括使用语音识别引擎或借助人工标注。在网络环境下,根据语音文件所在网页周围的文字信息也可以很好的辅助检索。
若使用语音识别进行内容分析,需要解决的问题包括语音/非语音的判决 VAD,语音背景噪声消除,说话人信息的识别,及语音识别的准确性问题。
参考文献
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.