网站首页 > 医学论文> 文章内容

关于中文数据库中国知网CNKI、维普、万方的操作“机理”剖析

※发布时间:2017-8-29 22:21:33   ※发布作者:habao   ※出自何处: 

  最近看到不少询问中文数据库使用的帖子, 并且有帖子对中文检索的说明,但是其中有些说明不尽准确。幽特此文回应。

  有“精确”为完全一模一样匹配,“模糊”为汉语的短语分词。通常推荐用“模糊”,但是当你的检索词足够短(两个字、三个字)且确定大家都这么用,推荐用“精确”也是可以。

  注意,(多功能 AND 干细胞) 精确后,反倒没有 ——多功能干细胞 精确找到的多!很奇怪吧^^

  先说明,我是和三个数据库商技术特别沟通,均不能给出满意答案,数据库商本身也是没有解释的,相信我,为此我挨个周旋了2个月,无果。以下说明为我个人总结,仅供参考!

  理由:”短语字段“是幽幽自己起的名字,这些字段对应的内容本身就是切分好的短语,而不是大段文字!每个短语都是作为“整体”存在,”精确“为“整体”一模一样的匹配。”模糊“为分词检索。

  例子:作者为张三,张三四。那么张三作为整体A,张三四作为另一个整体B,AB是完全不同的两个名字。“精确”检索张三,是找不到张三四的。因为对”精确“来说,张三四完全是另一个整体B。再解释下就是,汉字弓检索不出汉字 张,虽然张的左侧是弓!可是“模糊”检索张三能找到张三、张三四,因为张三四里面包含了张三两个字。特别是在检索期刊,“精确”检索图书,是找不到《图书情报工作》的。

  B 在机构字段,视情况而定。“精确”的含义同上。检索东北师范大学,是找不到东北师范大学教育学部。

  理由:一般有的机构是学校+院系。如果您想找到所有学校的文章,推荐用“模糊”。但是如果特别就想找某院系的发文,推荐“精确”,但是提示大家,很多院系老师发文只写到学校,这是没有办法找全的。

  理由:”文章字段“也是幽幽自己起的名字,不同于前两种情况,这三者为大段大段的文字。主题指标题+摘要+关键词。“精确”为完全匹配一模一样,“模糊”会切分为短语。“精确”虽然会找到极其相关的信息,但是会丢掉大量有用的相关信息。但,奇葩就奇葩在真正检索时候还有些不同~中文的切词实在不知道后台是如何运行的,中文真的很复杂!具体大家看下面例子,能让大家更明白中文的模糊分词到底分的是什么。

  以下全部为“模糊”对应的后台处理方式,看的就比较清楚。同样的汉字,但是给出短语的方式不同,系统后台切词处理就大相径庭!!!

  但是机器学习的时候,机器判断:能干 细胞 的概率比 干细胞 概率大,所以“多功能干细胞”被系统分词为: 多 功 能干 细胞;

  同样是题名或关键词字段,而且都是模糊,但是输入城市商业街现状,和输入城市 AND 商业街 AND 现状处理方式完全不同:

  城市商业街现状的处理为————检索式为:(题名=城市 AND 题名=商业街 AND 题名=现状) OR (关键词=城市 AND 关键词=商业街 AND 关键词=现状)

  城市 AND 商业街 AND 现状处理为————检索式为:(题名=城市 OR 关键词=城市) AND (题名=商业街 OR 关键词=商业街) AND (题名=现状 OR 关键词=现状)

  特别是bdf精确结果的差别,猜想,CNKI的数据库是有个汉语的短语拆分词库的,可是怎么拆分的又实在奇葩了。

  然后,又BT的做了这样的处理,3个字总好办些吧可就这三个字,也完全不是我们常规理解的”短语“

  当然,以上是因为在主题字段(包含了本身已经切词的“关键词”),所以,特别在摘要里面尝试,我是真BT啊

  这里,一下有了希望,可能真的是因为选择了”主题“,因为里面有关键词和标题摘要两种不同的处理。如果只看大段文字的摘要,那可能真是我们理解的短语切分的!至少ik一致!如果真这样,猜想“多功能”如果是一个短语,那么在”摘要“字段,它的精确模糊应该一致,如果切词了,那么和 某种拆分的精确或模糊其中一个应该一致吧,结果………………

  通过这些数据,至少我个人是如此想的,CNKI的切词,不是我们所以为的以为!!!也就是说,有些帖子里面的对CNKI模糊解释为切分短语检索不很准确,这里的“短语”大概真的不是我们所想的“短语”。不知道他们的词库到底是怎么处理的。

  三个数据库,专业检索都不针对符号!也就是说,如果想专门检索《历史研究》,这个书名号用 “”或 是处理不了的。无解!

  本来,很久以前万方的检索命令很好,很和英文数据库操作思维一致。不过现在改版交接之际,检索已经不是以前的检索了。基本已经说也会不请了~ 还是按英文思来,找到什么算什么了。

  有一点是确定的,接受(),and or等命令,一个检索框框内可以写复杂的关系式子,但是具体还是不是按命令执行,就只有天知道了!__看结果是看不出来的!

  由于它一个检索框就可以输入复杂的式子,所以其专业检索和检索框检索基本没有区别,除了检索字段的标识。

  同时接受and*,or+。详见检索帮助!注意,用 *+时候前后有没有空格都可以,用and or 大小写都可以,前后必须有空格。

  同样,也是一个检索框框可以写复杂的检索命令,所以其主页检索、高级检索和检索式检索(专业检索)区别不大。主要就是字段的标识。

  但是!维普的检索框框不接受括号(),奇怪吧!人家就是不接受。而且不接受+*,小写的and or也不可以。只能是大写的 AND OR, 左右要有空格,例如 蛋白 AND 乳腺癌。注意哦,(蛋白乳腺癌)中的空格不是AND!虽然结果看着好像是,但实际不是!维普的运算方式是依次从左往右运算!

  如果您想检索:英语and(写作or阅读)。正确方式为:写作OR 阅读 AND英语。 注意,逻辑算符前后有空格

  如果较复杂如:(教育or教学or课堂)and(英语and(写作or阅读))and(中小学or(中学and小学)) ,别废脑子琢磨顺序了,用高级检索,每个括号是一个条件!同样“模糊”。比“检索式检索”方便。

  1)先说下专业检索,这里无论加不加单引号(CNKI是单引号表示一模一样的精确检索),都是精确检索! SU=多功能干细胞,SU=多功能干细胞,结果都是168. 亲们啊,当大家展示超强的专业检索式编写能力时候,您已经丢掉了很多很多相关文献了!!!

  不过,通过第一部分对精确模糊的分析, 如果你的检索短语足够“短”,用专业检索就相当于精确了,基本和模糊差不多。怎么这么麻烦啊 ……

  2)另外点主页右侧的“高级检索”后,看到“句子检索”,很推荐,但是一行的前后两个框框都要输入内容,不能空一个。写论文找一句话的出处很方便(比如做参考文献时候)。

  3)常用“高级检索”,这里不同于前两个数据库,一个框框里面只能输入一个短语,不接受任何符号和命令。

  一行为一个限定条件,系统自动加载了()。也就是说,一个条件内容只能有两个小限定。两图可以看出,一个框框里输入2个短语中间用空格,并不是 并含的意思。

  系统默认的是一行一行按顺序运算,就是说第一行检索的结果和第二行组配,出来的结果在和第三行组配。

  当一个条件内部超过2个了,如上,那么先检索(教育or教学or课堂),然后“在结果中检索”检索(英语and(写作or阅读)),然后再在“在结果中检索”检索(中小学or(中学and小学))。

  4)最后说下CNKI的主页检索框框。真的不是大家以为的谷歌百度式检索框!默认为模糊处理,但是和高级检索的模糊还不同…………结论是,不用它,跳过,用高级检索

  结果是 239,136 ,精确是175463条。可见处理方式是不同的。但是怎么个不同不清楚。

  4.检索用的词尽可能切分成最小短语,2个字,最多不要超过6字。字越多限定约严格。除非特殊的专有名词本来就字数多。

  在重庆维普改版后专做期刊,在期刊方面可以说超越了CNKI ,其期刊的完整性为三家第一。不过这里有个采购规则,就是“独家”。比如CNKI有些独家期刊,意思是在某些特定年份,全文只能在独家数据库下载,注意是有年限的,不是所有的文。所以这样的独家刊,部分全文维普检索不到,但是可以找到题录,通过邮箱接受的方式免费获得,就是速度慢点,有的会需要10分钟。

  学位论文方面,CNKI万方各有侧重,虽然万方为中国学位论文收藏地,但是不能公开也是无用啊。

  CNKI的综合性,界面的人性化多年国内学术文献检索的翘楚不是没有道理,不过随着维普的已经改版,万方的即将改版,其独霸天下的状况是否能继续维持还有待观察。

  本文作者谢亚南老师曾在学术中国讲授关于学术资源搜索的系列课,好评如潮,应广大学友要求,特将讲课视频全部,现在购买,即可享受半价优惠!点击链接就能马名学习:

  推荐: