文本分割
文本分割(Text segmentation)将书面文本分割成有意义单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程,也适用于在计算机中实现的人工过程,后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记,例如英语的词之间有空格标识,阿拉伯语有独特的首、中、末字母形状,但这种标记不是所有书面语言都有。
分割问题
分词
分词(Word segmentation)是将一串书面语言分成其组成词的问题。中文分词指的是使用计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识。中文分词被认为是中文自然语言处理中的一个最基本的环节。
Unicode联盟已经发表了一个关于文本分割的标准附件[1]。
意图分割
意图分割(Intent segmentation)是将书面语言分割为关键词(2个或2个以上的词组)的问题。
参考文献
- . [2020-10-07]. (原始内容存档于2020-12-16).
外部連結
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.