阅读下面的文字,完成 1~3 题。
对于人文研究来说,计算方法以往只是作为辅助手段而存在的,而今天已取得了不可替代的地位。一种新的人文研究形态应运而生,这就是 “ 数字人文 ” 。学者莫莱蒂曾设想一种建立在全部文学文本之上的世界文学研究,人们必须借助计算机对大规模的文学文本集合进行采样、统计、图绘、分类,描述文学史的总体特征,然后再做文学评论式的解读。为此,他提出了与 “ 细读 ” 相对的 “ 远读 ” 作为方法论。弄清计算机的远读与人的细读之间的差别 , 不仅能使我们清晰地界定计算方法在人文研究中的作用,而且可以帮助我们重新确立人的阅读的价值。
计算机是为科学计算而创造出来的,擅长的是 “ 计数 ” , 而非 “ 理解 ” 。要处理自然语言文本,计算机必须先将文本置换成便于计数的词汇集合 , 或者用更复杂的代数模型和概率模型来表示文本,这一过程被称为 “ 数据化 ” 。数据化之后所得到的文本替代物 ( 集合、向量、概率 ) 虽然损失了原始文本的丰富语义 , 但终究是可以计算的了。不过,尽管计算机能处理海量的语料 , 执行复杂的统计、分类、查
询等任务,但它并不能理解文本的内容。
远读是数字人文的基石。大规模的文本集合上的远读,基本可以归为两类 : 一是对文本集合整体统计特征的描述,一是对文本集合内在结构特征的揭示。例如,数字人文学者米歇尔等人对数百万册数字化图书进行多种词汇和词频统计 , 以分析英语世界的语言演变,这属于前者 ; 莫莱蒂用地图、树结构来分别展示文学作品的地理特征和侦探故事的类型结构,这属于后者。无论是宏观统计描述还是内在结构揭示,都是超越文本昊体内容的抽象表示,所得结果都是需要解读的。正如米歇尔所说,在巨量文本集合上得到的统计分析结果,为人文材料的宏观研究提供了证据 ; 但是要解读这些证据,就像分忻古代生物化石一样,是有挑战性的。对远读结果的解读,仍然要依赖学者在细读文香基础上所建立起来的对本领域的认知和理解。一句话,人的阅读不可替代。
需要补充的是,当考察单篇⽂本的⽂本特征 ( 例如计算⼀篇⽂档中所有单字的出现频率 ) ,或者分析其内部结构 ( 例如提取⼀部⼩说中所有⼈物的对话⽹络 ) 时,数据量也会增⻓到个⼈⽆法处理的程度,所以,上述时⽂本集合所做的讨论在单篇⽂本层⾯也是成⽴的,
⼀个普遍存在的对数字人文的评判依据,是看数字人⽂能不能更好地回答传统人文学者所关⼼的问题,严格说来,只有当数据量或者数据精度超出了个人阅读理解的能⼒范围时,才有理由借助计算机来对⽂本或者⽂本集合的特征予以量化描述,进⽽提供给人去进⾏深⼊解读,数字人文不仅仅是新的⼿段和⽅法,更重要的是,它赋于我们提出新问题的能⼒,我们现在可以问,五千年来全人类使⽤最频繁的词是什么。透过这类问题,可以获得观察超⻓历史时段⽂化现象的新视⻆。
( 摘编自王军《从人文计算到可视化 —— 数字人文的发展脉络梳理》 )
1. 下列关于原 ⽂ 内容的理解和分析,不正确的 ⼀ 项是 ( )
A. 在数字 ⼈⽂ 的概念提出之前,计算 ⽅ 法已被引 ⼊⼈⽂ 领域,在研究中发挥作 ⽤ 。
B. 要实现莫莱蒂设想的世界 ⽂ 学研究, ⾸ 先应进 ⾏⼤ 规模的 ⽂ 学 ⽂ 本集合的数据化。
C. 选择远读还是细读的 ⽅ 法,取决于阅读的对象是大规模的 ⽂ 本集合还是单篇 ⽂ 本。
D. 数字 ⼈⽂ 不仅为 ⽂ 本处理提供了新的 ⼿ 段和 ⽅ 法, ⽽ 且为 ⼈⽂ 研究提供了新视 ⻆ 。
2. 下列对原 ⽂ 论证的相关分析,不正确的 ⼀ 项是 ( )
A. ⽂ 章区分 “ 计数 ” 与 “ 理解 " ,是为了论证计算机不能处理某些待定类型的 ⽂ 本
B. ⽂ 章转述数字 ⼈⽂ 学者 ⽶ 歇尔本 ⼈ 的说法,有助于论证应该更全 ⾯ 地看待远读。
C. ⽂ 章第四段讨论单篇 ⽂ 本层 ⾯ 的问题,对前 ⽂ 补充论证,使得论证更加周密。
D. ⽂ 章同时肯定计算机远读和 ⼈ 的细读的作 ⽤ ,有助于避免 ⼈ 们对远读的误解 .
3. 根据原 ⽂ 内容,下列说法正确的 ⼀ 项是 ( )
A. ⼈⽂ 研究的主体,在数字 ⼈⽂ 中实现了从具体的学者个 ⼈ 向计算机的转变。
B. 远读不是要深化对 ⽂ 本内容的理解, ⽽ 是要发掘 ⽂ 本集合的共同形式特征。
C. 数字 ⼈⽂ 的价值,在于将历史上未被注意和阅读的 ⽂ 本都进 ⾏ 数据化并做研究。
D. 和 ⼈ 的细读相 ⽐ ,远读的理念和做法体现出 ⼤ 数据时代 ⽂ 理融合的跨学科取向。
1.C
2.A
3.B
解析 :
1. 本题考查筛选并整合文中信息的能力。答题时注意仔细阅读文章,找准有效答题区间,然后认真对比阅读,寻找细微的差别,仔细辨别真伪对错。
C项,以偏概全。文中第4段说”需要补充的是当考察单篇文本的文体特征或者分析其内部结构时,数据量也会增长到个人无法处理的程度,所以上述对文本集合所做的讨论,在单篇文本层面也是成立的”,也就是说远读的方法也适用于单篇文本。那么C项所说的“选择远读还是细读的方法,取决于阅读的对象是大规模的文本集合还是单篇文本”就不严密了。
2.本题考查分析文章的论点、论据和论证方法的能力。A项所说文章区分计数与理解是为了论证计算机不能处理某些特定类型的文本,理解错误。文本第二段开头所述区分“技术”与“理解”是在说明计算机擅长的是“计数”,而非“理解”,理解文本具体内容还必须依靠人。
3.本题考查理解、概括文本观点、态度的能力。做此类题时,第一步,把握题干信息要点;第二步,选项逐一对应文本相关语句,核对、比较、分析,最后判断正误。
A项说人文研究主体,在数字人文中实现了从具体的学者个人向计算机的转变。与原文矛盾,原文说“对远读结果的解读,仍然要依赖学者在细读文本基础上所建立起来的对文本领域的认知和理解,一句话,人的阅读不可替代”。 C项所说的数字人文的价值在于将历史上未被注意和阅读的文本都进行数据化并做研究,缩小了文本概念内涵和外延。数字人文的价值,不仅仅是对历史上未被注意和阅读的文本进行数据化,而对大规模的文本集合进行数据化研究。D项“远读的理念和做法体现出大数据时代文理融合的跨学科取向”其中“文理融合的跨学科取向”原文无依据。