信息框
信息框(英语:Infobox),是用于收集展现文档等主题的资讯子集。这种结构化文档包含一组属性-值对[1],在维基百科等百科全书常会以信息框展示条目主题的摘要资讯[2]。搜索引擎也常在搜索结果的网页加上信息框显示相关摘要资讯。从这个方面来说,信息框可以媲美某些方面的数据表。当展示较大文档的摘要时,信息框常常以侧边栏形式出现。
将其嵌入文档并指定一些或全部与信息框有关的属性-值对(即参数),信息框可以在另一文档中实施。
维基百科
[编辑]在维基百科中,信息框可用于改善条目的外观[3],也用于通过使用通用格式确保类似条目展示方式的一致性[4][2]。最初,信息框(和一般模板)被用于页面布局的目标[2]。信息框可以透过指定某些或全部参数的值,嵌入条目[5]。所用的参数必须与信息框模板的参数相一致,除了任何可能与模板有关联的值[5]。名称被等号从值中分隔[5]。参数名称可视为条目主题的一个属性[6]。
{{Infobox prepared food | name = | image = | imagesize = | caption = | alternate_name = | country = | region = | creator = | course = | type = | served = | main_ingredient = | variations = | calories = | other = }} |
{{Infobox prepared food | name = Crostata | image = [[File:Crostata di mele e mandorle di Adriano a profilo.jpg|300px]] | imagesize = | caption = Apple crostata with slivered almonds | alternate_name = | country = [[Italy]] | region = | creator = | course = [[Dessert]] | type = [[Tart]] | served = | main_ingredient = Pastry crust, [[jam]] or [[ricotta]], fruit | variations = ''Crostata di frutta'', ''crostata di ricotta'', many other sweet or savoury variations | calories = | other = }} |
用于维基百科食品条目的信息框Infobox prepared food,参数(属性)未指定值。 | 嵌入英文维基百科意大利水果派的同一信息框。注意,等号(=)右侧的为值,参数名称与信息框模板所指定的参数相同。Wiki标记语言中用方括号括起来的项(如-[[挞]])将呈现为连接到相应的维基百科文章(如挞)的链接,被链接的文件将被嵌入到其在文章中所标记的区域。 |
维基百科内,嵌入条目的信息框用一对双大括号包围属性-值对。维基百科运行的MediaWiki软件随后解析文档,信息框及其他模板则交由模板处理器处理。这种模板引擎能制作web文档和用于呈现文档的样式表,这使得模板的设计与其所操作的内容分隔开[2],即模板的设计可以在不影响其资讯的前提下更新,新版的设计将自动传播到所有嵌入信息框的条目[4]。一般地,信息框格式化的出现在维基百科条目桌面版的右上角[3],或是移动版的顶部。
信息框在条目中wiki文本的位置对于无障碍而言是重要的[7]。最好的做法是把它们将在消歧义模板(用于指引读者前往与条目名称类似的相关主题)和维护模板(如将条目标记为未有参考资料)的下方,但应在其他所有内容之前[8][9]。
巴埃萨-耶茨和金称有些编者认为信息框等模板很复杂,编者希望改变能隐藏属性或资源文本的模板[10]。这是链式模板的恶化,即模板嵌模板[10]。
截至2009年8月,英文维基百科使用了大约3,000个信息框模板,集中使用了超过20,000个属性[11]。之后,为减少冗余,许多模板已经合并。截至2013年6月,有关信息框模板已被嵌入至少1345446次[12][13],有4,251,127 篇条目用到信息框(并非全部)。
信息框的名称通常是“Infobox+流派”,然而出于信息框的更广泛用途,它们经常被缩短,如分类学的taxobox[8]、军事冲突的warbox和地理学的geobox。
机器学习
[编辑]2008年,大约44.2%的维基百科条目包含信息框[14],2010年则有约33%[11]。自动语义知识提取所用的机器学习算法用于“以相对低的复杂性成本提取电脑可处理的资讯[1]。”然而,低覆盖度使得这一工作更难实现,即便可以通过补充条目所包括分类的条目数据部分地克服这一难题[14]。法语维基百科于2011年5月发起信息框专题第二版[15][16]。
机器学习所获得的知识可用于改善条目,如使用自动化软件能让编辑增加信息框数据[14]。iPopulator项目创建的系统通过自动分析条目文本,增加条目信息框参数的值[11]。
DBpedia使用机器学习算法从信息框中提取的结构化内容创建语义网中的键连资料资源[2],该算法被蒂姆·伯纳斯-李称为链式数据项目中“最知名的组成部分”之一[17]。
机器提取创建出主语、谓语(关系)和对象的三重结构[1]。信息框的每个属性-值对用于借助本体创建资源描述框架(RDF)[18]。这使得维基百科与本体之间的间隔,比存在于非结构化或自由文本与本土之间的间隔更容易被缩小[19]。
谓语建立了主体与客体之间的语义关系[1]。在上述信息框的例子中,三者(“crostata”、输入、“tart”)表明crostata是一种馅饼。条目的主题是主体,参数名是谓语,参数的值是客体[18][1]。每种类型的信息框映射到一种本体类别,信息框内的每个属性(参数)映射到本体的一种属性[20]。这些映射用来维基百科条目解析为析取数据。
许多维基百科信息框还包括微格式标记,使得页面上呈现的文本可被软件读取[21][22]。
参注
[编辑]- ^ 1.0 1.1 1.2 1.3 1.4 Baeza-Yates & King 2009,第31页.
- ^ 2.0 2.1 2.2 2.3 2.4 Liyang 2011,第385页.
- ^ 3.0 3.1 Broughton 2008,第357页.
- ^ 4.0 4.1 Broughton 2008,第17页.
- ^ 5.0 5.1 5.2 Broughton 2008,第18页.
- ^ Baeza-Yates & King 2009,第30页.
- ^ Broughton 2008,第234页.
- ^ 8.0 8.1 Broughton 2008,第235页.
- ^ 英文维基百科关于无障碍的政策由Wikipedia:格式手册/无障碍指定。wiki文本布局由Wikipedia:格式手册/版面布局指定
- ^ 10.0 10.1 Baeza-Yates & King 2009,第345页Infobox templates made what should be a simple task of adding a statement about a property of a resource a complicated procedure which some participants could not complete without prompting.
- ^ 11.0 11.1 11.2 Lange, Böhm & Naumann 2010.
- ^ 参见Template:Infobox
- ^ Jarry1250's Toolserver Tools - Template transclusion count. List of Wikimedia projects. 2013-06-07 [2013-06-07].
- ^ 14.0 14.1 14.2 Baeza-Yates & King 2009,第28页.
- ^ Geertman, Reinhardt & Toppen 2011,第493页.
- ^ 计划详情参见Infobox/V2。
- ^ Miller 2008.
- ^ 18.0 18.1 Liyang 2011,第387页.
- ^ Virvou & Matsuura 2012,第315页.
- ^ Liyang 2011,第395页.
- ^ Wikipedia:微格式专题
- ^ Heilman 2009.
参考资料
[编辑]- Baeza-Yates, Ricardo; King, Irwin (编). Weaving services and people on the World Wide Web. Springer. 2009. ISBN 9783642005695. LCCN 2009926100.
- Broughton, John. Barber, Nan; Meyers, Peter , 编. Wikipedia – The Missing Manual. O'Reilly Media. 2008-07-14. ISBN 9780596553777.
- Geertman, Stan; Reinhardt, Wolfgang; Toppen, Fred (编). Advancing geoinformation science for a changing world. Lecture notes in geoinformation and cartography 1 (Springer). 2011. ISBN 9783642197888. ISSN 1863-2246. LCCN 2011925152. doi:10.1007/978-3-642-19789-5.
- Heilman, Chris. Retrieving and displaying data from Wikipedia with YQL. Yahoo Developer Network. Yahoo. 2009-01-19 [2009-01-19]. (原始内容存档于2011-01-27).
- Lange, Dustin; Böhm, Christoph; Naumann, Felix. Extracting Structured Information from Wikipedia Articles to Populate Infoboxes. Technische Berichte des Hasso-Plattner-Instituts für Softwaresystemtechnik an der Universität Potsdam, Hasso-Plattner-Institut für Softwaresystemtechnik Potsdam (Universitätsverlag Potsdam). 2010 [2015-07-26]. ISBN 9783869560816. (原始内容存档于2014-06-06).
|issue=
被忽略 (帮助) - Yu, Liyang. A Developer’s Guide to the Semantic Web. Springer. 2011. ISBN 9783642159695. doi:10.1007/978-3-642-15970-1.
- Miller, Paul. Sir Tim Berners-Lee Talks with Talis about the Semantic Web. Transcription by CastingWords. Talis Group. 2008-02-07 [2013-06-02]. (原始内容存档于2013-05-10).
- Virvou, Maria; Matsuura, Saeko (编). Knowledge-based Software Engineering: Proceedings of the Tenth Joint Conference on Knowledge-Based Software Engineering. Frontiers and Artificial Intelligence and Applications 240 (IOS Press). 2012. ISBN 9781614990932. LCCN 2012943674.
延伸阅读
[编辑]- Kiran, Kumar N.; Santosh, G.S.K.; Varma, Vasudeva. Multilingual document clustering using Wikipedia as external knowledge. Multidisciplinary Information Retrieval (Springer Berlin Heidelberg). June 2011, 6653. ISBN 9783642213533. ISSN 0302-9743. doi:10.1007/978-3-642-21353-3.
- Chutiporn, Anutariya; Domingue, John (编). The Semantic Web: 3rd Asian Semantic Web Conference, ASWC 2008, Bangkok, Thailand, December 8-11, 2008. Proceedings. Lecture Notes in Computer Science 5367 (Springer). 2008. ISBN 9783540897033. ISSN 0302-9743.
- Wu, Fei; Hoffmann, Ralph; Weld, Daniel s. Information extraction from Wikipedia: moving down the long tail. Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining (Association for Computing Machinery): 731–739. ISBN 9781605581934. doi:10.1145/1401890.1401978.