在談論創新與跨領域研究時,我們常聽到一種說法:「把來自不同領域的知識結合在一起,是創造突破的關鍵」。然而,要客觀地衡量一篇研究到底多「創新」、多「跨領域」,其實並不容易,不同的研究往往用不同的分析單位,有些以參考文獻的來源期刊為依據,有些則根據文章中的主題或關鍵詞組合。但問題來了:這些方式會得出一樣的結果嗎?我們真的能放心地說「這篇文章很創新」,不管是用什麼指標衡量?
本研究的出發點,就是這個簡單卻重要的問題:衡量研究創新性與傳統性的分析單位不同,是否會影響我們的判斷?我們試圖釐清「以期刊為單位」(source-based approach)與「以關鍵詞為單位」(topic-based approach)在評估研究創新性(novelty)與傳統性(conventionality)上的一致性與差異,並進一步探討這些指標對研究影響力(例如是否高被引)的預測效果。
我們使用的是 DBLP Citation Network v13,這是一個涵蓋電腦科學領域的大型資料集,包含超過 700 萬篇論文及近 5 千萬筆引用資料。本研究聚焦於 2000 至 2015 年間的資料,排除關鍵詞或引用過少的論文後,最終納入1,725,037 篇文章進行分析。
在方法上,我們根據每一篇文章當中應用的文獻和出現的關鍵詞分別建立了兩種知識網絡:
期刊共被引網絡(Source Co-Citation Network, SCCN
關鍵詞共被引網絡(Keyword Co-Citation Network, KCCN)
每篇論文都有兩種創新性與傳統性評分:一種基於其引用的期刊配對(例如《Nature》和《IEEE Transactions》被同時引用的頻率),另一種則來自其引用文獻中的關鍵詞組合(如“machine learning”與“ethics”的共現情形)。我們使用 K50 這個指標來衡量這些知識單位之間的「意外性」(越少見越新穎)。
初步發現:兩種方法結果不同,且來源法更能預測影響力
我們發現,以期刊與以關鍵詞為單位所得到的創新性與傳統性排序,彼此之間的相關性非常低(Spearman’s rho 多數介於 0.1 至 0.3 之間),代表這兩種方法反映的是不同面向的「創新」。
更有趣的是,當我們分析「創新性高且傳統性也高」(High Novelty, High Conventionality, 簡稱 HNHC)的文章時,只有以引用的期刊作為知識源的方式能夠有效預測哪些文章未來可能成為高被引(top 5%)的研究。相較之下,關鍵詞法的預測力相對薄弱。不過,兩者合併使用時能稍微提高預測的準確性。
在當前強調創新與跨領域研究的學術環境中,如何衡量「知識組合的創新性」與「傳統性」影響我們對研究價值的判斷。我們的初步分析提醒我們:衡量的方式會大大影響結果。如果我們只看引用的期刊,就可能漏掉主題上的跨界創新;如果我們只看關鍵詞,則可能誤判哪些組合真的罕見。兩種方式都有其意義與限制,更重要的是,我們需要理解這些評估方式「在捕捉什麼」,以及「為什麼差異這麼大」,這正是本研究希望引起更多討論的地方。