文章相似度檢測

文章相似度檢測內容相似度檢測(content similarity detection)或抄袭检测(plagiarism detection)是在一份文件中找到抄袭侵權詞句所在位置的方法。隨著電腦的普遍使用,網際網路的發明,抄袭其他作品的難度越來越低[1][2]

抄袭检测可以用許多方式來進行。人工檢測是傳統檢測是否有抄袭的方法,相當的耗時間[2],而且可能因為組織內對於抄袭定義的不同,會有不一致的情形[3]。目前已有許多文字匹配軟體(text-matching software、TMS),也稱為反剽竊軟體(anti-plagiarism software)或剽竊檢測軟體(plagiarism detection software),這些軟體可能是商業軟體,也可能是開源軟體。文字比對軟體不會一句一句的檢查是否有抄袭,不過軟體會從一份文件中找到和其他文件相符的特定片段,若相符的特定片段越多,抄袭的可能性也就越高。

軟體輔助的文件抄袭检测

電腦輔助的抄袭检测(computer-assisted plagiarism detection、簡稱CaPD)是由特製的信息檢索系統所進行的信息檢索工作,此系統稱為抄袭检测系統(plagiarism detection system、PDS)或文件相似度檢測系統。2019年的一篇系統綜述 [4]簡單說明了目前正在使用的抄袭检测系統。

文件相似度檢測系統有兩種通用的檢測方式,一種是外在的,一種則和文件的固有特性有關[5]。 外在檢測系統會將待測的文件和一些參考用的文件進行比較,這些參考用的文件是假定原創,沒有抄袭的文件 [6]。 依照給定的文件模型,以及事先定義的相似度準則,檢測工作就是檢索出參考用的文件中,內容和待測文件相似度超過一定比例的比文件[7]。 固有特性的抄袭检测系統會直接用待測的文件進行分析。分析的目的是找出作者獨特的寫作方式變化,作為抄袭可能性的指標[8]。 抄袭检测系統一定要配合人類的判斷,才能可靠的識別文件抄袭。相似度是依事先定義的文件模型來計算,因此可能出現偽陽性[9][10][11][12][13]

檢測方式

下圖繪出目前各種以電腦軟體來輔助檢測文章內容相似性的方式,並依檢測的範圍為全域或局部加以分類。全域(global)相似性評估方式會擷取文章中大部分的特徵文本甚至整篇文章和其他文章進行比對,以計算二者間的相似度;而局部(local)相似性評估方式則僅是事先選擇小部分文本段落,並輸入電腦軟體進行比對。

電腦軟體輔助檢測抄襲方式的分類
文章指紋識別

文章指紋識別(fingerprinting)是目前檢測內容相似性的方式中所最為廣泛運用者。此方式是藉由從文章中擇定一組由多個字母所組成的「符串」(n-gram),並定義為該篇文章中具有代表性的摘要。這些符串即如同指紋一般,而構成指紋的元素即稱為「細節」(minutaie)[14] [15]。 文章指紋識別會先針對待確認的文件計算其指紋,並且在所有的參考文件中,查詢是否有出現指紋中一定比例的細節。和其他文件的細節符合表示二份文件中有共同的文字區塊,若相似度超過一定比例,有可能是抄袭的[16]。指紋識別的限制因素是運算資源以及時間,因此此方法多半只會選擇一部份的細節進行比較,一方面加速計算,也可以在大量的文本(例如網際網路)中搜尋[14]

字串匹配

字串匹配是電腦科學中常用的方法。若應用在内容抄袭检测時,會針對文件進行逐字逐字的重疊比較。針對這項任務,已提出了許多不同的方法,其中也有一些已用在外部的抄袭检测上。以此方法檢查待測文件,要有足夠的計算資源以及容量,才能高效的針對所有的參考文件,進行兩兩文件的比較。有些文件模型(例如后缀树或后缀向量)已用在此任務上。無疑的,子字串匹配的運算量相當的大,因此在比較大量參考文件時,不能使用字串匹配進行檢查[17][18][19]

词袋分析

词袋分析(Bag of words analysis)是由傳統信息檢索概念中的向量空間模型,轉換到內容相似度檢測旳技術。文件可以用一個或是多個向量(可能是分別表示文件的不同部份)表示,這些向量會用來進行成對的相似度計算。相似度計算可以用傳統的余弦相似性計算,或是用更複雜的相似性計算方式[20][21][22]

引用文獻分析

引用文獻為基礎的抄袭检测(CbPD)[23]是依引文分析為基礎,是唯一不靠文本相似度(textual similarity)的抄袭检测演算法[24]。CbPD會檢查引用文獻以及文件中用文獻佐證的部份,識別是否有類似的模式。因此,此方式適用於科學論文或是其他一定會引用文獻的學術論文。引用文獻為基礎的抄袭检测是相對而言較晚發展的概念。目前還沒有商用軟體使用此一作法,不過已有使用此一技術的原形系統[25]。待檢查文件中的類似程度以及接近(proximity)文獻的程度是此一技術的判斷準則。

计量文献学

计量文献学是用統計的方式識別作者獨特寫作風格的方式[26][27],主要用在作者歸屬確認,或是考慮文件固有特性的電腦輔助抄襲檢測(CaPD)。可以針對不同的文字建構其文體模型,並且進行比較,來自不同來源的文字,其文體模型也會不同,因此可以依此偵測到抄袭或是侵權的情形[8]

性能比較

内容抄袭检测的比較性評估[6][28][29][30][31][32]指出,检测系統的性能會因抄袭的方式不同而不同。除了引用文獻分析外,其他的檢測都是以文本相似度為基礎。因此若混合許多文獻抄袭,檢測系統的準確度就會下降。

内容抄袭检测的性能會依抄袭的方式不同而不同

若是「複製貼上」(copy and paste)型式的抄袭,公然侵犯版權的抄袭、或是適度掩飾的抄袭,若軟體可以找到來源的文字,目前的内容抄袭系統的精確度很高。特別是子字串比對程序針對「複製貼上」型式的抄袭,其效果非常的好,因為其中會使用無損的文件模型,例如后缀树。利用文章指紋或是詞袋分析的性能會因為文件模型中,資訊的減少程度而受到影響。若文章指紋或是詞袋分析再配合靈活的分塊及選擇策略,檢測變相抄襲的性能會比相較於子字串比對程序要好。

利用Stylometry的固有特性抄袭检测可以用比較語言相似性,克服一些文本相似度的問題。假設原始文件及待確認文件的風格都很明確,而且是用可靠的方式識別,Stylometry可以識別變相抄襲及文字改寫(Paraphrasing)式的抄袭。但若文字重組的非常嚴重,反而產生了不同於來源資料的風格,或是抄袭自數個不同的來源,Stylometry分析可能會失效。2009年至2011年國際抄袭检测比賽的結果[6][31][32],以及Stein的實驗[33]都指出,Stylometry分析若要正常運作,只能針對數千到上萬字之間的文件,這限制了電腦輔助的抄襲檢測的應用性。

越來越多的研究是針對可偵測翻譯抄袭的方式或是系統。目前跨語言的抄袭检测(cross-language plagiarism detection、CLPD)還不是成熟的技術[34],各系統在評估時還無法有令人滿意的結果[30]

和其他方式比較,引用文獻分析的抄袭检测在識別改寫情形較嚴重的抄袭,或是識別翻譯抄袭上的成功率較高,因為和文本相似度沒有關係[24][35]。不過因為引用文獻分析要有足夠的文獻資訊,因此只限制在學術文件。引用文獻分析在檢測較短的抄袭文字(例如「複製貼上」的抄袭或是「複製重組貼上」的抄袭)時,效果不如以文字為基礎的抄袭检测。「複製重組貼上」(shake-and-paste)的抄袭是指用不同的來源,略為混合後再抄袭的作法[36]

使用文字匹配軟體的副作用

若利用文字匹配軟體來進行内容抄袭检测,目前已出現一些副作用。目前最受闗注的問題是被參考文件的智慧財產權問題。文件要可以被文字匹配系統檢查到,就需要加到文字匹配系統的資料庫中,才能有效的匹配,但是將其他人創作,有智慧財產權的文件加入資料庫,有侵權的問題。目前已經有一些相關的訴訟案。

另一個副作用是因為文字匹配軟體只會計算文字精準匹配的結果。若在抄袭後將夠多的單字改為同義字,減少和原文完全相同的文字,有可能可以騙過檢測軟體,此方法稱為rogeting

程式碼抄袭检测

程式碼的抄袭也很常見,程式碼抄袭的检测工具和文件抄袭的檢測工具不同。在程式碼抄袭檢測上,已有許多的學術研究[37]

程式碼抄袭常常出現在程式相關的作業上。大部份的作業都會給學生很明確的需求,要學生寫出符合該需求的程式。不一定可以在網路上找到已有,符合該需求的程式。網路上可找到的程式可能只能符合部份需求,若要滿足作業需求,還需要改寫程式或整合程式,這多半會比學生自己學程式作業要難。大部份的學生若要抄袭程式碼作業,多半會抄袭同學寫的作業。

根據Roy和Cordy的研究[38],程式碼抄袭检测演算法可以分為以下幾種

  • 字串:找文本中完全相同的文字片段,例如連續五個字相同。此演算法速度很快,但若修改變數名稱,即無法識別。
  • 符記(Tokens):也和字串演算法相同,但是由詞法分析將程式先轉換為符記(Token),忽略空白、註解、識別符名稱,因此若只是單純修改變數名稱,此方式仍可以法識別。大部份學術的程式碼抄袭系統會使用此演算法,用不同的演算法來評估二個符記序列的相似度。
  • 分析树(Parse Trees):先建立分析树然後再比較,這可以偵測更高層次的類似性。例如,分析树比較可以正規化條件敘述,再偵測兩者是否有類似的等效結構。
  • 程式相依圖(PDG):程式相依圖可以表示程式中各函式之間彼此呼叫的關係,可以找到更高層次的相似,不過複雜度及運算時間都多很多。
  • 軟體度量:會依照一些準則(例如迴圈及條件判斷的個數,或是變數使用的數量)去算程式碼的分數。軟體度量很容易計算,也很容易比較,不過偽陽性的比例很高。二段不同的程式可能剛好有相同的軟體度量值。
  • 混合法:例如分析树加上后缀树,可以結合分析树的能力以及后缀树(一種用於字串比對的資料結構)的計算效率。

上述的分類一開始是為了代码重构所開發的,不是為了程式碼抄袭。代码重构的一個重要目的是避免程式中重複的程式碼,在文獻中稱為代码重复。上述的作法可以偵測到不同層次的相似性:低層次的相似性是指完全相同的文字,高層次的相似性可能是因為類似的規格所產生。在學術的使用上,因為學生是依相同的規格寫程式作業,其作業的程式在機能上等效(即高層次的相似性)是合理的,因此若用在在程式作業的抄袭檢測上,一般只會考慮低層次的相似性。

相關條目

  • 反剽竊軟體比較
  • 局部敏感哈希
  • 最邻近搜索
  • 改寫檢測
  • 柯氏复杂性:用來評估多個系統中,符記序列(token sequences)的類似程度

參考資料

  1. . [2020-07-27]. (原始内容存档于2021-04-18).
  2. Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. Journal of University Teaching & Learning Practice, 6(1). Retrieved from http://ro.uow.edu.au/jutlp/vol6/iss1/6
  3. Macdonald, R., & Carroll, J. (2006). Plagiarism—a complex issue requiring a holistic institutional approach. Assessment & Evaluation in Higher Education, 31(2), 233–245. doi:10.1080/02602930500262536
  4. Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela. . ACM Computing Surveys. 2019-10-16, 52 (6): 1–42. doi:10.1145/3345317 (英语).
  5. Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios, (PDF), SIGIR Forum, 2007-12, 41 (2): 68 [2011-10-07], doi:10.1145/1328964.1328976, (原始内容 (PDF)存档于2012-04-02)
  6. Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo, , (PDF), CEUR Workshop Proceedings 502: 1–9, 2009 [2020-07-27], ISSN 1613-0073, (原始内容 (PDF)存档于2012-04-02)
  7. Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin, , (PDF), ACM: 825–826, 2007 [2011-10-07], ISBN 978-1-59593-597-7, doi:10.1145/1277741.1277928, (原始内容 (PDF)存档于2012-04-02)
  8. Meyer zu Eissen, Sven; Stein, Benno, , (PDF), Lecture Notes in Computer Science 3936, Springer: 565–569, 2006 [2011-10-07], ISBN 978-3-540-33347-0, doi:10.1007/11735106_66, (原始内容 (PDF)存档于2012-04-02)
  9. Bao, Jun-Peng; Malcolm, James A., , (PDF), Northumbria University Press, 2006 [2011-10-07], (原始内容 (PDF)存档于2018-09-16)
  10. Clough, Paul, (PDF) (Technical Report), Department of Computer Science, University of Sheffield, 2000 [2020-07-27], (原始内容存档 (PDF)于2011-08-18)
  11. Culwin, Fintan; Lancaster, Thomas, (PDF), Vine, 2001, 31 (2): 36–41 [2020-07-27], doi:10.1108/03055720010804005, (原始内容 (PDF)存档于2012-04-05)
  12. Lancaster, Thomas, (PhD Thesis), School of Computing, Information Systems and Mathematics South Bank University, 2003
  13. Maurer, Hermann; Zaka, Bilal, , , AACE: 4451–4458, 2007 [2020-07-27], (原始内容存档于2016-08-15)
  14. Hoad, Timothy; Zobel, Justin, (PDF), Journal of the American Society for Information Science and Technology, 2003, 54 (3): 203–215 [2014-10-14], doi:10.1002/asi.10170, (原始内容 (PDF)存档于2015-04-30)
  15. Stein, Benno, , (PDF), Springer, Know-Center: 572–579, 2005-07 [2011-10-07], (原始内容 (PDF)存档于2012-04-02)
  16. Brin, Sergey; Davis, James; Garcia-Molina, Hector, , (PDF), ACM: 398–409, 1995 [2020-07-28], ISBN 978-1-59593-060-6, doi:10.1145/223784.223855, (原始内容存档 (PDF)于2016-08-18)
  17. Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz, , (PDF), ACM: 226–227, 2000 [2011-10-07], ISBN 978-1-58113-231-1, doi:10.1145/336597.336667, (原始内容 (PDF)存档于2012-04-15)
  18. Baker, Brenda S., (Technical Report), AT&T Bell Laboratories, NJ, 1993-02 [2020-07-28], (原始内容 (gs)存档于2007-10-30)
  19. Khmelev, Dmitry V.; Teahan, William J., , , ACM: 104–110, 2003, ISBN 978-1581136463, doi:10.1145/860435.860456
  20. Si, Antonio; Leong, Hong Va; Lau, Rynson W. H., , (PDF), ACM: 70–77, 1997 [2020-08-10], ISBN 978-0-89791-850-3, doi:10.1145/331697.335176, (原始内容存档 (PDF)于2019-08-19)
  21. Dreher, Heinz, (PDF), Information and Beyond: The Journal of Issues in Informing Science and Information Technology, 2007, 4: 601–614 [2020-08-10], doi:10.28945/974, (原始内容存档 (PDF)于2019-08-19)
  22. Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael, , (PDF), CEUR Workshop Proceedings 502: 47–55, 2009 [2020-08-10], ISSN 1613-0073, (原始内容 (PDF)存档于2012-04-02)
  23. Gipp, Bela, , Springer Vieweg Research, 2014 [2020-08-10], ISBN 978-3-658-06393-1, (原始内容存档于2014-10-04)
  24. Gipp, Bela; Beel, Jöran, , (PDF), ACM: 273–274, 2010-06 [2011-10-21], ISBN 978-1-4503-0041-4, doi:10.1145/1810617.1810671, (原始内容 (PDF)存档于2012-04-25)
  25. Gipp, Bela; Meuschke, Norman; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas, , (PDF), ACM: 1119, 2013-07-28 [2020-08-10], ISBN 9781450320344, doi:10.1145/2484028.2484214, (原始内容存档 (PDF)于2018-04-10)
  26. Holmes, David I., , Literary and Linguistic Computing, 1998, 13 (3): 111–117, doi:10.1093/llc/13.3.111
  27. Juola, Patrick, (PDF), Foundations and Trends in Information Retrieval, 2006, 1 (3): 233–334 [2020-08-10], ISSN 1554-0669, doi:10.1561/1500000005, (原始内容存档 (PDF)于2020-10-24)
  28. , HTW University of Applied Sciences Berlin, [2011-10-06], (原始内容存档于2011-10-25) (德语)
  29. , HTW University of Applied Sciences Berlin, [2011-10-06], (原始内容存档于2019-03-27) (德语)
  30. , HTW University of Applied Sciences Berlin, [2011-10-06], (原始内容存档于2019-04-26) (德语)
  31. Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo, , (PDF), 2010 [2011-10-07], (原始内容 (PDF)存档于2012-04-03)
  32. Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo, , (PDF), 2011 [2011-10-07], (原始内容 (PDF)存档于2012-04-02)
  33. Stein, Benno; Lipka, Nedim; Prettenhofer, Peter, (PDF), Language Resources and Evaluation, 2011, 45 (1): 63–82 [2011-10-07], ISSN 1574-020X, doi:10.1007/s10579-010-9115-y, (原始内容 (PDF)存档于2012-04-02)
  34. Potthast, Martin; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo, (PDF), Language Resources and Evaluation, 2011, 45 (1): 45–62 [2011-10-07], ISSN 1574-020X, doi:10.1007/s10579-009-9114-z, hdl:10251/37479, (原始内容 (PDF)存档于2013-11-26)
  35. Gipp, Bela; Meuschke, Norman; Beel, Jöran, , (PDF), ACM: 255–258, 2011-06 [2011-10-07], ISBN 978-1-4503-0744-4, doi:10.1145/1998076.1998124, (原始内容 (PDF)存档于2012-04-25)
  36. Weber-Wulff, Debora, , (PDF), 2008-06 [2020-08-10], (原始内容存档 (PDF)于2013-10-01)
  37. "Plagiarism Prevention and Detection - On-line Resources on Source Code Plagiarism" 页面存档备份,存于. Higher Education Academy University of Ulster
  38. Roy, Chanchal Kumar;Cordy, James R. (2007-09-26)."A Survey on Software Clone Detection Research" 页面存档备份,存于. School of Computing, Queen's University, Canada

文獻

  • Carroll, J. (2002). A handbook for deterring plagiarism in higher education. Oxford: The Oxford Centre for Staff and Learning Development, Oxford Brookes University. (96 p.), ISBN 1873576560
  • Zeidman, B. (2011). The Software IP Detective’s Handbook. Prentice Hall. (480 p.), ISBN 0137035330
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.