Một cách tiếp cận mới để phát hiện sự giống nhau của văn bản dựa trên phép biến đổi wavelet rời rạc

A Novel Approach Based On Discrete Wavelet Transformation For Text Similarity Detection
Nơi đăng: HTKH Quốc gia Nghiên cứu cơ bản và ứng dụng CNTT (FAIR), Số: , Trang: , Năm: 2017, Loại bài viết: Bài báo, Quốc gia: Việt Nam.

Tóm tắt:

Trong bài báo này, chúng tôi đề xuất một cách tiếp cận mới nhằm phát hiện sự giống nhau giữa các văn bản dựa trên phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT). Cụ thể là, các tài liệu gốc sẵn có được chuyển thành một tập các chuỗi số thực được gọi là các DNA (DeoxyriboNucleic Acid) nguồn thông qua DWT. Để kiểm tra sự giống nhau của một văn bản bất kỳ, chúng tôi cũng sử dụng DWT để tạo ra các DNA cho chính văn bản đó và tính toán khoảng cách Euclid nhỏ nhất từ các DNA này đến các DNA nguồn. Cuối cùng, bằng cách so sánh với một mức ngưỡng, các giá trị về khoảng cách sẽ cho biết đoạn văn bản được kiểm tra có giống với một văn bản nguồn nào đó hay không. Kết quả thực nghiệm chứng minh thuật toán do chúng tôi đề xuất đem lại hiệu quả cao trong phát hiện sự giống nhau của văn bản bằng cách thử nghiệm trên một bộ dữ liệu chuẩn tại Hội nghị quốc tế thường niên về phát hiện đạo văn (Plagiarism Analysis, Authorship Identification, and Near-Duplicate detection -PAN).

Abstract:

In this paper, we propose a novel text similarity detection algorithm based on Discrete Wavelet Transform (DWT) approach. In particular, the available source materials are converted into a set of the floating-number sequences, namely source DNAs, which are generated by using DWT. To check the similarity for an arbitrary document, we also apply DWT to derive its own DNAs to which the smallest Euclidean distances from the source DNAs are computed. As compared to a threshold level, the values of these distances indicate whether any piece of the checked document is duplicated from another source. The experimental results demonstrate that the proposed algorithm provides an efficient text similarity detection by testing with a real standard dataset of Plagiarism Analysis, Authorship Identification, and Near-Duplicate detection, known as PAN.