不同數(shù)據(jù)庫中機構檢索的檢索方法及技巧論文
當前,很多高?蒲泄芾聿块T每年都會進行科研成果統(tǒng)計,對本機構內科研活動狀況進行定量測定。通過不同數(shù)據(jù)庫的機構檢索,能夠反映高?茖W研究的動態(tài)和水平,從而為在院校的學科建設、科研規(guī)劃、人才培養(yǎng)、宏觀決策的制定等方面建立機構知識庫提供重要依據(jù); 同時也有助于與擁有相近學科的高校進行橫向比較。在實際工作中,經常會接到某高?蒲刑幍奈校埱髾z索該高校人員在某個時間段( 常常是逐年委托連續(xù)起來) 發(fā)表的論文在國內外著名檢索工具中的收錄情況,借以統(tǒng)計該機構的科研成果。
1 機構檢索中遇到的問題
在檢索時發(fā)現(xiàn),機構中英文名稱不規(guī)范的情況很普遍,如機構名稱有常用名稱和別名,機構名稱采用縮寫或簡寫,機構改名后仍然有為數(shù)不少的作者沿用原來機構的英文名稱。還有一些作者在發(fā)表論文時未使用所在機構的正式英文名稱,有好幾種非正式名稱出現(xiàn)[1 -2].這給檢索過程中想要求全帶來極大的困難。另外,不同的數(shù)據(jù)庫收錄論文時著錄規(guī)則不同,如果檢索策略不對,會導致檢索結果出入很大[3].筆者根據(jù)實際工作中積累的經驗,介紹以機構委托時通常會用來統(tǒng)計的數(shù)據(jù)庫以及在不同數(shù)據(jù)庫中檢索的具體方法及技巧,確保檢索機構的查全率和查準率。
2 機構檢索時通常選取的國內外著名數(shù)據(jù)庫
現(xiàn)在很多高校都是綜合性大學,理工文史哲經管農醫(yī)教各學科都有。所以在成果統(tǒng)計時可以大致按照自然科學和社會科學來分類。其中,自然科學類常用的數(shù)據(jù)庫有 SCI、EI Compendex、CPCI - S、MEDLINE、CSCD、CNKI 等,社會科學類常用的數(shù)據(jù)庫有 SSCI、A&HCI、CPCI - SSH、CSSCI 等。這其中又區(qū)分這些數(shù)據(jù)庫的核心版和非核心版的收錄情況。這些數(shù)據(jù)庫都是在國內外有重大影響力的數(shù)據(jù)庫,其中有專門收錄期刊論文的,或專門收錄會議論文的,也有都收錄的。
除了上述檢索收錄時常用的數(shù)據(jù)庫,基本科學指標數(shù)據(jù)庫( Essential Science Indicators,簡稱 ESI)也是機構檢索的重要工具,它是由世界著名的學術信息出版機構美國科技信息所( ISI) 于 2001 年推出的衡量科學研究績效、跟蹤科學發(fā)展趨勢的基本分析評價工具,是當今世界范圍內普遍用以評價大學、科研機構、個人國際學術水平及影響力的重要指標。
3 不同數(shù)據(jù)庫中可以使用的著錄規(guī)則特征及基本檢索方法
機構人員發(fā)表論文時一般都會在作者地址中留下機構名稱、具體地址及郵編,團體作者也符合這個特點。所以檢索時考慮凡地址字段中出現(xiàn)該機構名稱即可確認是該機構人員發(fā)表的論文。
不同數(shù)據(jù)庫對信息的著錄規(guī)則不同,會導致同樣的檢索策略檢索出的結果差別很大。而同一家數(shù)據(jù)庫商所做的同一平臺上的數(shù)據(jù)庫的著錄方法是基本一致的,所以這里按照不同的平臺來介紹。
3. 1 ISI 平臺
目前,我們常用的是 ISI 平臺上的 Web of Sci-ence Core Collection 數(shù) 據(jù) 庫 集,包 括: SCI / SSCI /A&HCI / CPCI - S / CPCI - SSH / CCR / IC 等 7 個數(shù)據(jù)庫,該平臺還有 MEDLINE/BIOSIS 等數(shù)據(jù)庫。
通過在作者地址中輸入機構和/或地點的完整或部分名稱,可以檢索“地址”字段。例如,Univ 和University 可查找記錄中的地址字段出現(xiàn)檢索詞 “Univ” 的機構。
可以使用邏輯運算符( AND、OR、NOT、NEAR和 SAME) 和通配符 ( * $ ?) 來組合檢索使檢索結果更精確。但是檢索包含上述邏輯運算符的地址,需要將該運算符名稱括在引號內。
在檢索時,邏輯運算符和通配符的使用與其他數(shù)據(jù)庫的不同點在于:SAME 運算符指定了由運算符連接的檢索詞位于同一地址,而不僅僅是位于相同的字段,使得檢索結果更精確。
使用 NEAR/x 可查找由該運算符連接的檢索詞之間相隔指定數(shù)量單詞的記錄。該規(guī)則也適用于單詞處于不同字段的情況,用數(shù)字取代 x( x≤15) 可指定將檢索詞分開的最大單詞數(shù)。
通配符星號 ( * ) 表示任何字符組,包括空字符,只能放在詞尾。
通配符問號 ( ?) 表示任意一個字符,用于單詞中間。
通配符美元符號 ( $ ) 表示零或一個字符,可用于詞尾或詞中間。
3. 2 Engineering Village 平臺
目前,國家圖書館僅購買了該平臺的 EI Com-pendex 數(shù)據(jù)庫,所以以下只針對該數(shù)據(jù)庫的檢索規(guī)則進行介紹。
作者地址字段 Author affiliation 簡寫為 AF 字段。EI Compendex 數(shù)據(jù)庫提供了該字段的索引,但實際按照作者機構檢索時發(fā)現(xiàn)效果很不理想,原因在于作者對機構名稱的書寫不規(guī)范,用索引列表很難窮盡。
EI Compendex 數(shù)據(jù)庫也提供了邏輯運算符( AND、OR、NOT、NEAR 、ONEAR 和 SAME) 和通配符 ( * $ ?) 組合檢索來提高檢索效率和精準度。
但是具體的使用方法和含義不盡相同。
截詞符星號 ( * ) 用來檢索以相同字母開始的單詞。
通配符問號 ( ?) 表示任意一個字符,用于單詞中間。
美元符號 ( $ ) 表示詞干搜索條件。在一個完整的單詞前面加上 $ ,可以將其各種形式的變形都搜索出來。
位置算符 NEAR 或 ONEAR 限制檢索時兩個詞組之間距更鄰近,ONEAR 更是限定了詞與詞之間的先后順序。但它們不能與* 、?、( ) 、{ } 、“”同時使用。
3. 3 ESI 數(shù)據(jù)庫
ESI 數(shù)據(jù)庫的功能主要包括 3 個方面: 引用排行( Citation Rankings) 、高被引論文( Most Cited Pa-pers) 和引用分析( Citation Analysis)[7].ESI 根據(jù)各機構不同學科領域 10 年內論文的被引頻次的總和對機構進行排名。ESI 中機構名稱都很規(guī)范,只考慮機構的正式英文名稱即可。
可以按學科瀏覽,查看在同一學科不同機構的排名情況; 也可以進行機構檢索,查看同一機構在不同學科的排名情況; 也可以檢索該機構近 10 年來在某學科的高被引論文數(shù)或熱點論文數(shù)。
機構檢索時默認在地址字段檢索,只要包含該機構名稱就符合檢索條件?梢詾g覽字順表進行機構檢索,或用機構正式英文名稱的縮寫進行檢索; 輸入“HARVARD UNIV”,對應機構名稱就是 HAR-VARD UNIV; 輸入“HARVARD UNIV* ”,檢索結果為包含前述兩個詞的任一地址,如: HARVARDUNIV 或 HARVARD UNIV MEDICAL AFFILIATES.
3. 4 中文數(shù)據(jù)庫 CSCD / CSSCI / CNKI
CSCD 數(shù)據(jù)庫機構字段只需了解加雙引號( “”)是精確檢索。不加是模糊檢索。
CSSCI 數(shù)據(jù)庫中作者機構字段默認就是精確檢索。
CNKI 數(shù)據(jù)庫中單位字段提供精確或模糊兩種選擇。這里要說明的是在機構檢索時需要選擇“模糊”,因為 CNKI 中“精確”是與所輸入檢索詞完全匹配,而機構地址通常都是某大學某學院某系等信息,選擇“精確”就會造成漏檢很多。
中文數(shù)據(jù)庫由于沒有語言問題,相對來說檢索規(guī)則也較簡單,不再另述其檢索技巧。都可以區(qū)分核心版和非核心版。需要注意的是,一定要將機構名稱的常用名、別名、簡寫或縮寫找全,并配合地址和郵編來檢索,這樣才能保證檢索結果既全面又準確。
4 機構檢索在英文數(shù)據(jù)庫中的檢索技巧
根據(jù)我們多年的實際工作經驗,認為初步設定檢索式時要盡可能的.放大范圍以保證檢索全面; 同時,既考慮增加檢索條件,又要使用算符,確保檢索準確性。當機構名稱較長時,不容易引起干擾; 機構名稱簡單,則干擾項會很多。
4. 1 機構名稱較長,直接用機構名稱檢索引起的干擾項較少
以華北水利水電大學為例,檢索該機構 2013 年發(fā)表的論文在數(shù)據(jù)庫中收錄情況。
該機構的正式英文名稱及郵編為:North China University of Water Resources and ElectricPower ,Henan Zhengzhou 450011地址字段輸入郵編 450011,瀏覽可發(fā)現(xiàn)該機構的其他不規(guī)范寫法,例如:“水利”有用 Water Resources 或 Water Conservancy,“水電”有用 Electric Power 或 hydroelectric Power,“學院”有用 U-niversity 或 institute.
以 SCI 為例,SCI 數(shù)據(jù)庫中地址字段檢索時默認詞與詞之間的精確順序,構造檢索式如下:ad = ( N* China ( Univ* or inst* ) Water ( Conservan*or Resource* ) ( Elect* or Hydroelec* ) Powe* or 450011)以 EI Compendex 為例,EI Compendex 數(shù)據(jù)庫檢索時默認詞與詞之間就是“and”關系,不指定檢索詞的順序。這個原則適用于地址字段。所以實際檢索時要具體情況具體分析。考慮到該機構名稱較長,模糊檢索,干擾項也不會太多。所以直接將檢索式變更為 EI 中格式即可,如下:( N* China and ( Univ* or inst* ) and Water and ( Con-servan* or Resource * ) and ( Elect * or Hydroelec * ) andPowe* ) wn AF or 450011 wn AF
4. 2 機構名稱簡單,直接用機構名稱檢索引起的干擾項很多
當機構名稱較短時,就會有很多干擾項。如檢索“河北大學”,該機構正式名稱及地址如下:Hebei University,Hebei Baoding 071002在 SCI 地址字段輸入 Hebei Univ* 檢索,會發(fā)現(xiàn)以 Hebei Univ* 打頭的各種干擾項,如: HEBEIUNIV TECHNOL 、HEBEI UNIVERSITY OF TECH-NOLOGY、HEBEI UNIVERSITY OF SCIENCE TECH-NOLOGY 、HEBEI UNIV ECON BUSINESS 等等;在 EI 地址字段輸入 Hebei Univ* 檢索,會發(fā)現(xiàn)只要地址字段中包含了 Hebei 和 University 兩個詞,就滿足了檢索條件,導致檢索結果極不精確,除了上述干擾項,還會有諸如: HEBEI MEDICAL UNIVER-SITY、HEBEI NORTH UNIV、HEBEI UNITED UNIV等等。
這時,一方面可以通過增加檢索條件,如將機構名稱與地址或郵編組合檢索來縮小范圍使得檢索結果更精確。也避免了漏檢同時將地址和郵編都寫錯的情況。
以 2013 年 SCI 收錄為例:原檢索式: ad = ( hebei univ* ) and py =2013 檢索結果:1023 條修改為: ad = ( Hebei Univ* and ( Baoding or 071002) )and py = 2013,檢索結果: 469 條可以看出修改后的檢索式大大提高了準確率。
然后再在這個相對準確的結果中去確認就容易得多。
以上操作都是基于先將范圍最大化從而不會漏檢,保證檢索結果更全面的角度出發(fā)。
另一方面,巧妙使用數(shù)據(jù)庫中的算符以提高準確率。
以河北北方學院 2013 年發(fā)表論文的 SCI 收錄情況為例:機構正式名稱及地址: Hebei North University,hebeiZhangjiakou 075000North 在數(shù)據(jù)庫中有可能以 NORTH 或 N 或 Northern出現(xiàn)。
構造原檢索式: ad = hebei n* univ* and py =2013 檢索結果: 450 條情況 1: 粗略瀏覽檢索結果發(fā)現(xiàn)干擾項 HEBEI NORMALUNIVERSITY 很多,去除干擾項,檢索式修改為: ad = ( hebein* univ* not hebei norm* univ* ) and py = 2013 檢索結果: 59 條但這樣會將地址字段既有河北北方學院又有河北師范大學的條目也去掉,所以補充修改檢索式為:( ad = ( hebei n* univ* not hebei norm* univ* ) or ad= ( hebei nort* univ* and hebei norm* univ* ) ) and py =2013 檢索結果: 60 條情況 2: 使用地址與名稱組合檢索。如上文中介紹,在 SCI 地址字段檢索時,算符 SAME 有將檢索詞限制于同一地址檢索的功能,所以做對比如下:原檢索式: ad = ( hebei n * ( univ * or coll * ) and( zhangjiakou or 075000) ) and py =2013 檢索結果: 60 條修改為: ad = ( hebei n * ( univ * or coll * ) same( zhangjiakou or 075000) ) and py =2013 檢索結果: 58 條可見,使用 same 算符后檢索結果更精確。
再以 EI 數(shù)據(jù)庫中地址字段檢索舉例說明:原檢索式: Hebei north* univ* wn af 發(fā)表時間: 2013 年檢索結果: 640 條( 可以單獨檢索 hebei n univ* 以補充全面)如上文介紹,位置算符 NEAR 或 ONEAR 可以使檢索結果更準確?梢孕薷臋z索式如下,以便看出其中差別:#1 Hebei NEAR north NEAR university wn af 發(fā)表時間:2013 年 檢索結果: 92 條#2 Hebei ONEAR north ONEAR university wn af 發(fā)表時間: 2013 年 檢索結果: 76 條#3 Hebei NEAR /0 north NEAR /0 university wn af 發(fā)表時間: 2013 年 檢索結果: 74 條#4 Hebei ONEAR /0 north ONEAR /0 university wn af 發(fā)表時間: 2013 年 檢索結果: 74 條注釋: #1 和#2 中沒有指定相鄰幾個詞時,默認是 4 個詞。即 NEAR 等同于 NEAR/4.
可以看出,檢索結果變少,范圍縮小。以上檢索默認數(shù)據(jù)庫打開 Autostemming 功能,自動進行詞干檢索,如 north 的變形 northern 也包含在檢索結果內。這個功能也可以通過使用詞干搜索符號 ( $ )實現(xiàn)。修改檢索式為:#5 Hebei ONEAR /0 $ north ONEAR /0 $ university WNAF 發(fā)表時間: 2013 年 檢索結果: 74 條但是,由于 NEAR 或 ONEAR 算符不能與* 、?、( ) 、{ } 、“”同時使用,尤其是截詞符* ,這就使得檢索結果不全面,如檢索式#1 到#5 均無法檢索到 uni-versity 的縮寫 univ.
以上僅是為了說明算符的重要性,在實際檢索時要將上述幾項合并使用。
5 建議
。 1) 有關單位規(guī)范機構和地址名稱及其英文翻譯名稱,科技工作者在撰寫論文時也要采用正式的機構和地址的中英文名稱,減少不規(guī)范因素,這樣就不會漏查; 檢索人員應多學習數(shù)據(jù)庫的著錄規(guī)則,了解不同數(shù)據(jù)庫的著錄格式,在構建檢索策略時更加全面更加精確,提高查全查準率。
( 2) 相關工作人員在做機構檢索時,可以按照下述方式進行: 與委托單位科研處溝通,獲知該機構的正式名稱與地址,以及是否有曾用名稱、地址郵編的變化等信息,這樣在檢索之前全面了解被檢索機構的各種信息; 充分利用數(shù)據(jù)庫不同的著錄規(guī)則去檢索,獲取到相關檢索結果并反饋給科研處; 請科研處人員確認并發(fā)布,收集極個別的遺漏信息再單獨補充。這樣完成的機構檢索就既全面又準確了。
參 考 文 獻
[1] 張 冰。 科技期刊學術論文中作者單位名稱著錄存在問題及建議[J]. 內 蒙 古 大 學 學 報 ( 自 然 科 學 版) ,2009 ( 2) :225 - 228.
[2] 謝 群。 在 WebofScience 中準確進行中文機構檢索的方法研究[J]. 圖書館論壇,2011( 1) : 155.
[3] 于澄潔。 EiCompendex 數(shù)據(jù)庫作者機構檢索技巧[J]. 圖書館雜志,2010( 12) : 29 -30.
[4] [ EB/OL].webofknowledge. com/WOKRS5132R4. 2 / help.[2014 - 11 - 30].
[5] [EB/OL].[2014 - 11 -30].
[6] 孫 君,陳 陶。 提高文獻查全率和查準率的有效途徑_省略_算符_位置算符和通配符的靈活運用_孫君[J]. 現(xiàn)代情報,2006( 10) : 167 - 169.
[7] 韓 欣,劉子忠。 ESI 計量分析數(shù)據(jù)庫的功能與科學評價---以中國地學研究機構的科學評價為例[J]. 地質科技情報,2010( 1) : 138 - 142.
【不同數(shù)據(jù)庫中機構檢索的檢索方法及技巧論文】相關文章:
信息檢索中的檢索詞運用分析07-21
網(wǎng)絡信息檢索服務與分析論文09-19
實例演示在MSSQL中啟用全文檢索數(shù)據(jù)庫 -電腦資料01-01
如何從 MySQL 數(shù)據(jù)庫表中檢索數(shù)據(jù)數(shù)據(jù)庫教程 -電腦資料01-01
檢索實習目的02-08
實習檢索報告09-28
實習檢索報告12-08
信息檢索作業(yè)06-14