文本挖掘
文本挖掘(Text mining)有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。文本分析包括了信息检索与词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。
文本挖掘与文本分析
文本分析这一术语描述了一套语言学、统计学和机器学习技术,其对文本来源的内容信息进行建模和结构化,用于商业智能、探索性数据分析、研究或调查。[1] 该术语大致与文本挖掘同义;事实上,Ronen Feldman在2004年修改了2000年对 "文本挖掘"[2]的描述,以描述 "文本分析"。[3]后一个术语现在在商业环境中使用得更频繁,而 "文本挖掘 "则用于一些最早可以追溯到1980年代的应用领域,[4]尤其是在生命科学研究和政府情报方面。
文本分析这一术语也描述了文本分析对商业问题的应用,无论是独立的还是与现场数字数据的查询和分析相结合的。不言而喻的,80%的商业相关信息是以非结构化的形式出现的,主要是文本。[5]这些技术和过程可以发现并展示知识——事实、商业规则和关系——否则这些知识就会被锁定在文本形式中,无法被自动处理。
历史
劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速取得进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于目前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。
多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。
应用
现在,文本挖掘技术被广泛地应用于各种政府、研究和商业需求。所有这些群体都可能将文本挖掘用于管理记录和搜索与他们日常活动相关的文件。例如,法律专业人士可将文本挖掘用于电子取证。政府和军事团体将文本挖掘用于国家安全和情报目的。科学研究人员将文本挖掘方法纳入组织大量文本数据(即解决非结构化数据的问题)的工作中,以挖掘通过文本交流的想法(例如,社交媒体的情感分析[6][7][8]),并支持生命科学和生物信息学等领域的科学发现。在商业领域,其应用有支持竞争情报和自动广告投放,以及其他许多活动。
软件应用
包括IBM和微软在内的大公司也在研究和开发文本挖掘方法和软件,以进一步实现文本挖掘和分析过程的自动化;而搜索和索引领域的一些公司也在研究和开发文本挖掘方法和软件,以改善其结果。在公共部门内,许多努力集中在开发跟踪和监测恐怖活动的软件上。[10]对于研究而言,Weka软件(见后文“软件和应用”部分)是科学界最受欢迎的选择之一,它对初学者来说是一个很好的入门点。对于Python程序员来说,为更加普遍的目的有一个优秀的工具包,叫做NLTK。对于更高级的程序员,还有Gensim库,它专注于基于词嵌入的文本表示。
在线媒体应用
大型媒体公司,如Tribune Media,正在使用文本挖掘来澄清信息,为读者提供更好的搜索体验,这反过来又增加了网站的 "粘性 "和收入。此外,在后端,编辑们也正在受益,因为他们能够分享、关联和包装新闻,大大增加了内容赚钱的机会。
软件和应用
用来文本挖掘的计算机程序可从许多商业和开放源代码公司和来源获得。
开源软件和应用
Weka工具 http://www.cs.waikato.ac.nz/ml/weka/ (页面存档备份,存于)
影响
直到最近,网站最常使用的是基于文本的搜索,它只能找到包含用户给定的特定单词或短语的文件。现在,通过使用语义网,文本挖掘可以根据意义和上下文(而不仅仅是某个特定的词)来寻找内容。此外,文本挖掘软件可以被用来建立有关特定人物和事件的大型信息档案。例如,可以根据从新闻报道中提取的数据建立大型数据集,以促进社会网络分析或反情报工作。实际上,文本挖掘软件的作用类似于情报分析员或研究图书管理员,尽管分析的范围更有限。文本挖掘也被用于一些电子邮件的垃圾邮件过滤器,作为确定可能为广告或其他不需要的材料的信息的一种方式。文本挖掘在确定金融市场情绪方面发挥着重要作用。
注释
- Ronen Feldman and James Sanger, The Text Mining Handbook, Cambridge University Press, ISBN 9780521836579
- Kao Anne, Poteet, Steve R. (Editors), Natural Language Processing and Text Mining, Springer, ISBN 184628175X
- Konchady Manu "Text Mining Application Programming (Programming Series)" by Manu Konchady, Charles River Media, ISBN 1584504609
- M. Ikonomakis, S. Kotsiantis, V. Tampakas, Text Classification Using Machine Learning Techniques, WSEAS Transactions on Computers, Issue 8, Volume 4, August 2005, pp. 966-974 (https://web.archive.org/web/20081203004649/http://www.math.upatras.gr/~esdlab/en/members/kotsiantis/Text%20Classification%20final%20journal.pdf)
参考资料
- . InformationWeek. [2022-08-22] (英语).
- . Cs.cmu.edu. [2015-02-23]. (原始内容存档于2022-07-13).
- 的存檔,存档日期March 3, 2012,.
- Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. . 1. 1982: 127–32. S2CID 6433117. doi:10.3115/991813.991833.
- . Breakthrough Analysis. August 2008 [2015-02-23]. (原始内容存档于2014-09-12).
- Pang, Bo; Lee, Lillian. . Foundations and Trends in Information Retrieval. 2008, 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . ISSN 1554-0669. doi:10.1561/1500000011.
- Paltoglou, Georgios; Thelwall, Mike. . ACM Transactions on Intelligent Systems and Technology. 2012-09-01, 3 (4): 66. ISSN 2157-6904. S2CID 16600444. doi:10.1145/2337542.2337551.
- . alt.qcri.org. [2018-10-02]. (原始内容存档于2019-03-24).
- Zanasi, Alessandro. . Advances in Soft Computing 53: 53. 2009. ISBN 978-3-540-88180-3. doi:10.1007/978-3-540-88181-0_7.
- 的存檔,存档日期October 4, 2013,.
- . Medallia. [2015-02-23]. (原始内容存档于2017-11-08).
- Coussement, Kristof; Van Den Poel, Dirk. . Information & Management. 2008, 45 (3): 164–74 [2022-08-22]. CiteSeerX 10.1.1.113.3238 . doi:10.1016/j.im.2008.01.005. (原始内容存档于2019-12-15).
- Coussement, Kristof; Van Den Poel, Dirk. . Decision Support Systems. 2008, 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010.
- Ramiro H. Gálvez; Agustín Gravano. . Journal of Computational Science. 2017, 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
- Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar. . 10. 2002: 79–86. S2CID 7105713. doi:10.3115/1118693.1118704.
- Alessandro Valitutti; Carlo Strapparava; Oliviero Stock. (PDF). PsychNology Journal. 2005, 2 (1): 61–83 [2008-09-27]. (原始内容存档 (PDF)于2018-09-20).
- Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain. (PDF). : 14–18. 2010 [2022-08-22]. (原始内容存档 (PDF)于2019-03-29).
- Calvo, Rafael A; d'Mello, Sidney. . IEEE Transactions on Affective Computing. 2010, 1 (1): 18–37. S2CID 753606. doi:10.1109/T-AFFC.2010.1.
- (2023) A Study on Public Perceptions of Carbon Neutrality in China: has the Idea of ESG Been Encompassed? Front. Environ. Sci. 10:949959. doi: 10.3389/fenvs.2022.949959
更多链接
- http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ (页面存档备份,存于) MUC
- http://projects.ldc.upenn.edu/ace/ (页面存档备份,存于) ACE (LDC)
- https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ ACE (NIST)
- https://web.archive.org/web/20070928002315/http://www.arts-humanities.net/text_mining (Discussion group text mining)
- Text Analysis Portal for Research (TAPoR)
- http://textanalytics.wikidot.com/ (页面存档备份,存于) Text Analytics Wiki
- Getting started in text mining (页面存档备份,存于)
- Pimiento A Text-Mining Application Framework written in Java.