文本挖掘

文本挖掘（Text mining）有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程（通常进行分析，同时加上一些衍生语言特征以及消除杂音，随后插入到数据库中），产生结构化数据，并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性，新颖性和趣味性。典型的文本挖掘方法包括文本分类，文本聚类，概念/实体挖掘，生产精确分类，观点分析，文档摘要和实体关系模型（即，学习已命名实体之间的关系）。文本分析包括了信息检索与词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取，数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上，首要的任务是，通过自然语言处理（NLP）和分析方法，将文本转化为数据进行分析。

文本挖掘与文本分析

文本分析这一术语描述了一套语言学、统计学和机器学习技术，其对文本来源的内容信息进行建模和结构化，用于商业智能、探索性数据分析（英语：Exploratory data analysis）、研究或调查。^[1] 该术语大致与文本挖掘同义；事实上，Ronen Feldman在2004年修改了2000年对 "文本挖掘"^[2]的描述，以描述 "文本分析"。^[3]后一个术语现在在商业环境中使用得更频繁，而 "文本挖掘 "则用于一些最早可以追溯到1980年代的应用领域，^[4]尤其是在生命科学研究和政府情报方面。

文本分析这一术语也描述了文本分析对商业问题的应用，无论是独立的还是与现场数字数据的查询和分析相结合的。不言而喻的，80%的商业相关信息是以非结构化（英语：Unstructured data）的形式出现的，主要是文本。^[5]这些技术和过程可以发现并展示知识——事实、商业规则（英语：Business rule）和关系——否则这些知识就会被锁定在文本形式中，无法被自动处理。

历史

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期，但在过去的十年中，技术的进步已经使这一领域迅速取得进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于目前的大多数信息（80％）是以文本的形式来保存，文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣：能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

应用

现在，文本挖掘技术被广泛地应用于各种政府、研究和商业需求。所有这些群体都可能将文本挖掘用于管理记录和搜索与他们日常活动相关的文件。例如，法律专业人士可将文本挖掘用于电子取证（英语：Electronic discovery）。政府和军事团体将文本挖掘用于国家安全和情报目的。科学研究人员将文本挖掘方法纳入组织大量文本数据（即解决非结构化数据（英语：Unstructured data）的问题）的工作中，以挖掘通过文本交流的想法（例如，社交媒体的情感分析^[6]^[7]^[8]），并支持生命科学和生物信息学等领域的科学发现（英语：Discovery (observation)）。在商业领域，其应用有支持竞争情报和自动广告投放（英语：Ad serving），以及其他许多活动。

安全应用

许多文本挖掘的软件包是为安全应用的。它们多数是出于国家安全的目的，监控和分析类似于互联网新闻（英语：Digital journalism）、博客等的在线纯文本。^[9] 文本加密和解密的领域也需要研究文本挖掘。

软件应用

包括IBM和微软在内的大公司也在研究和开发文本挖掘方法和软件，以进一步实现文本挖掘和分析过程的自动化；而搜索和索引领域的一些公司也在研究和开发文本挖掘方法和软件，以改善其结果。在公共部门内，许多努力集中在开发跟踪和监测恐怖活动的软件上。^[10]对于研究而言，Weka软件（见后文“软件和应用”部分）是科学界最受欢迎的选择之一，它对初学者来说是一个很好的入门点。对于Python程序员来说，为更加普遍的目的有一个优秀的工具包，叫做NLTK（英语：Natural Language Toolkit）。对于更高级的程序员，还有Gensim（英语：Gensim）库，它专注于基于词嵌入的文本表示。

在线媒体应用

大型媒体公司，如Tribune Media，正在使用文本挖掘来澄清信息，为读者提供更好的搜索体验，这反过来又增加了网站的 "粘性 "和收入。此外，在后端，编辑们也正在受益，因为他们能够分享、关联和包装新闻，大大增加了内容赚钱的机会。

营销应用

文本分析正在被应用于商业领域，特别是营销领域，如客户关系管理。^[11]Coussement和Van den Poel（2008）^[12]^[13]将其应用于改善客户流失（英语：Customer attrition）的预测分析模型。^[12]文本挖掘也被应用于股票收益预测。^[14]

情感分析

情感分析可能涉及对电影评论的分析，以估计评论对电影的好感程度。^[15]这种分析可能需要一个已标记的数据集或对词的情感性进行标记。WordNet^[16]和ConceptNet（英语：Open Mind Common Sense）^[17]已经有分别词汇和概念的情感性资源。

在情感计算的相关领域，文本已经被用来检测情感。^[18]基于文本的情感计算方法已经被用于多个语料库，如学生评价、儿童故事和新闻故事。情感分析也被应用于分析社交媒体内容。例如，之前对碳中和帖子的研究发现，正面情绪微博（83.9%）大约是负面情绪微博（9.9%）的八倍，只有 6.3% 是中性的^[19]。

软件和应用

用来文本挖掘的计算机程序可从许多商业和开放源代码公司和来源获得。

开源软件和应用

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/ （页面存档备份，存于互联网档案馆）

影响

直到最近，网站最常使用的是基于文本的搜索，它只能找到包含用户给定的特定单词或短语的文件。现在，通过使用语义网，文本挖掘可以根据意义和上下文（而不仅仅是某个特定的词）来寻找内容。此外，文本挖掘软件可以被用来建立有关特定人物和事件的大型信息档案。例如，可以根据从新闻报道中提取的数据建立大型数据集，以促进社会网络分析或反情报工作。实际上，文本挖掘软件的作用类似于情报分析员或研究图书管理员，尽管分析的范围更有限。文本挖掘也被用于一些电子邮件的垃圾邮件过滤器，作为确定可能为广告或其他不需要的材料的信息的一种方式。文本挖掘在确定金融市场情绪（英语：Market sentiment）方面发挥着重要作用。

注释

Ronen Feldman and James Sanger, The Text Mining Handbook, Cambridge University Press, ISBN 9780521836579
Kao Anne, Poteet, Steve R. (Editors), Natural Language Processing and Text Mining, Springer, ISBN 184628175X
Konchady Manu "Text Mining Application Programming (Programming Series)" by Manu Konchady, Charles River Media, ISBN 1584504609
M. Ikonomakis, S. Kotsiantis, V. Tampakas, Text Classification Using Machine Learning Techniques, WSEAS Transactions on Computers, Issue 8, Volume 4, August 2005, pp. 966-974 (https://web.archive.org/web/20081203004649/http://www.math.upatras.gr/~esdlab/en/members/kotsiantis/Text%20Classification%20final%20journal.pdf)

参考资料

^ Business Technology News and Commentary. InformationWeek. [2022-08-22] （英语）.
^ KDD-2000 Workshop on Text Mining – Call for Papers. Cs.cmu.edu. [2015-02-23]. （原始内容存档于2022-07-13）.
^ [1] 互联网档案馆的存档，存档日期March 3, 2012，.
^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics 1. 1982: 127–32. S2CID 6433117. doi:10.3115/991813.991833.
^ Unstructured Data and the 80 Percent Rule. Breakthrough Analysis. August 2008 [2015-02-23]. （原始内容存档于2014-09-12）.
^ Pang, Bo; Lee, Lillian. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval. 2008, 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . ISSN 1554-0669. doi:10.1561/1500000011.
^ Paltoglou, Georgios; Thelwall, Mike. Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media. ACM Transactions on Intelligent Systems and Technology. 2012-09-01, 3 (4): 66. ISSN 2157-6904. S2CID 16600444. doi:10.1145/2337542.2337551.
^ Sentiment Analysis in Twitter < SemEval-2017 Task 4. alt.qcri.org. [2018-10-02]. （原始内容存档于2019-03-24）.
^ Zanasi, Alessandro. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing 53: 53. 2009. ISBN 978-3-540-88180-3. doi:10.1007/978-3-540-88181-0_7.
^ [2] 互联网档案馆的存档，存档日期October 4, 2013，.
^ Text Analytics. Medallia. [2015-02-23]. （原始内容存档于2017-11-08）.
^ ^12.0 ^12.1 Coussement, Kristof; Van Den Poel, Dirk. Integrating the voice of customers through call center emails into a decision support system for churn prediction. Information & Management. 2008, 45 (3): 164–74 [2022-08-22]. CiteSeerX 10.1.1.113.3238 . doi:10.1016/j.im.2008.01.005. （原始内容存档于2019-12-15）.
^ Coussement, Kristof; Van Den Poel, Dirk. Improving customer complaint management by automatic email classification using linguistic style features as predictors. Decision Support Systems. 2008, 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010.
^ Ramiro H. Gálvez; Agustín Gravano. Assessing the usefulness of online message board mining in automatic stock prediction systems. Journal of Computational Science. 2017, 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar. Thumbs up?. Proceedings of the ACL-02 conference on Empirical methods in natural language processing 10. 2002: 79–86. S2CID 7105713. doi:10.3115/1118693.1118704.
^ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock. Developing Affective Lexical Resources (PDF). PsychNology Journal. 2005, 2 (1): 61–83 [2008-09-27]. （原始内容存档 (PDF)于2018-09-20）.
^ Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain. SenticNet: a Publicly Available Semantic Resource for Opinion Mining (PDF). Proceedings of AAAI CSK: 14–18. 2010 [2022-08-22]. （原始内容存档 (PDF)于2019-03-29）.
^ Calvo, Rafael A; d'Mello, Sidney. Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications. IEEE Transactions on Affective Computing. 2010, 1 (1): 18–37. S2CID 753606. doi:10.1109/T-AFFC.2010.1.
^ (2023) A Study on Public Perceptions of Carbon Neutrality in China: has the Idea of ESG Been Encompassed? Front. Environ. Sci. 10:949959. doi: 10.3389/fenvs.2022.949959

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分布语义（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 语言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	电脑辅助翻译基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼写检查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天机器人文字冒险游戏问答系统