Trang chủ › Thống kê đạo văn 2025: Sự kiện, xu hướng và dữ liệu nghiên cứu

Thống kê đạo văn 2025: Sự kiện, xu hướng và dữ liệu nghiên cứu

2025-02-15 · Plagiarism Detector Team

Thống kê đạo văn toàn cầu

Đạo văn là một vấn đề toàn cầu ảnh hưởng đến mọi lĩnh vực tạo ra nội dung văn bản. Theo nghiên cứu được công bố bởi Trung tâm Liêm chính Học thuật Quốc tế (ICAI), khoảng 68% sinh viên đại học thừa nhận đã tham gia vào một số hình thức gian lận bằng văn bản, bao gồm đạo văn, trong sự nghiệp học thuật của họ. Con số này đã nhất quán đáng kể qua nhiều đợt khảo sát kéo dài hơn hai thập kỷ nghiên cứu của Donald McCabe và các đồng nghiệp.

Một phân tích tổng hợp quy mô lớn được công bố trên PLOS ONE (Pupovac & Fanelli, 2015) đã kiểm tra tỷ lệ đạo văn tự báo cáo qua 54 nghiên cứu và phát hiện tỷ lệ phổ biến tổng hợp là khoảng 30% sinh viên thừa nhận ít nhất một trường hợp đạo văn. Nghiên cứu ghi nhận sự biến đổi đáng kể theo khu vực, với một số quốc gia báo cáo tỷ lệ trên 50% và các quốc gia khác dưới 10%, phản ánh sự khác biệt trong thái độ văn hóa, thực thi tổ chức và nhận thức về các chuẩn mực đạo văn.

Vấn đề vượt ra ngoài học thuật. Một báo cáo năm 2019 của iThenticate (một công ty Turnitin) khảo sát các biên tập viên và nhà nghiên cứu cho thấy 1 trong 6 bản thảo đã nộp cho các tạp chí học thuật có sự chồng chéo văn bản đáng kể với tài liệu đã xuất bản trước đó. Trong các ngành báo chí và xuất bản, các vụ bê bối đạo văn tiếp tục xuất hiện thường xuyên, với các trường hợp nổi tiếng được báo cáo tại các tổ chức tin tức lớn trong những năm gần đây.

Tỷ lệ đạo văn học thuật

Nghiên cứu về vi phạm học thuật nhất quán cho thấy đạo văn phổ biến rộng rãi ở tất cả các cấp độ giáo dục. Trung tâm McCabe về Liêm chính Học thuật (trước đây là Trung tâm Liêm chính Học thuật Quốc tế) đã thu thập dữ liệu từ hơn 71.000 sinh viên đại học và 17.000 sinh viên sau đại học trên khắp Bắc Mỹ. Kết quả của họ cho thấy 39% sinh viên đại học thừa nhận đã diễn giải hoặc sao chép một vài câu từ nguồn Internet mà không trích dẫn, và 62% sinh viên đại học thừa nhận ít nhất một hành vi gian lận nghiêm trọng trong các bài tập viết.

Một cuộc khảo sát năm 2023 của Turnitin báo cáo rằng trong số các bài nộp được xử lý qua hệ thống của họ, khoảng 11% bài của sinh viên chứa sự chồng chéo văn bản đáng kể (trên 25% tương đồng) từ các nguồn không được ghi nguồn. Một nghiên cứu riêng của Bretag và cộng sự (2019) được công bố trên Studies in Higher Education khảo sát 14.086 sinh viên tại tám trường đại học ở Úc và phát hiện 6,5% thừa nhận đã mua hoặc thuê ngoài bài tập (gian lận theo hợp đồng), một hình thức gian lận học thuật đặc biệt nghiêm trọng.

Đạo văn ở cấp sau đại học ít được nghiên cứu hơn nhưng không phải hiếm. Văn phòng Liêm chính Nghiên cứu (ORI) tại Hoa Kỳ đã điều tra hàng trăm trường hợp vi phạm nghiên cứu từ khi thành lập, với đạo văn và làm giả dữ liệu là các danh mục hàng đầu. Một nghiên cứu của Heitman và Litewka (2011) được công bố trên Developing World Bioethics phát hiện rằng đạo văn trong các ấn phẩm khoa học phổ biến hơn ở các nước đang phát triển, một phần do rào cản ngôn ngữ và các chuẩn mực học thuật khác nhau.

Xu hướng nội dung do AI tạo ra

Việc phát hành ChatGPT vào tháng 11 năm 2022 đánh dấu một bước ngoặt trong liêm chính học thuật. Một cuộc khảo sát được thực hiện bởi nhóm nghiên cứu Trí tuệ Nhân tạo Lấy con người làm trung tâm của Đại học Stanford phát hiện rằng khoảng 17% sinh viên đại học được khảo sát báo cáo đã sử dụng các công cụ AI cho bài tập trong năm học 2022-2023. Các cuộc khảo sát tiếp theo cho thấy con số này đã tăng lên đáng kể.

Turnitin báo cáo vào năm 2024 rằng hệ thống phát hiện AI của họ đánh dấu từ 6% đến 11% bài nộp của sinh viên là chứa nội dung do AI tạo ra đáng kể (được định nghĩa là 80% hoặc hơn văn bản do AI viết). Một cuộc khảo sát của BestColleges (2023) phát hiện 56% sinh viên đại học đã sử dụng các công cụ AI cho việc học, với khoảng một nửa số đó thừa nhận rằng cơ sở của họ coi việc sử dụng như vậy là một hình thức gian lận hoặc đạo văn.

Thách thức của nội dung do AI tạo ra mở rộng ra ngoài giáo dục. Một phân tích năm 2024 của Originality.AI ước tính rằng một tỷ lệ đáng kể và ngày càng tăng của nội dung web mới được xuất bản cho thấy các dấu hiệu của tạo sinh AI. Điều này tạo ra những thách thức mới cho các công cụ phát hiện đạo văn, hiện phải phân biệt giữa văn bản gốc do con người viết, văn bản đạo văn do con người viết và văn bản do AI tạo ra — ba danh mục khác biệt đòi hỏi các cách tiếp cận phát hiện khác nhau.

Đạo văn trong xuất bản và báo chí

Đạo văn trong xuất bản chuyên nghiệp mang lại hậu quả vượt xa sự nghiệp cá nhân. Một nghiên cứu của Fang, Steen và Casadevall (2012) được công bố trong Proceedings of the National Academy of Sciences phân tích 2.047 bài báo y sinh bị rút lại và phát hiện 9,8% số lần rút bài được quy cho đạo văn, trong khi gian lận và xuất bản trùng lặp chiếm phần lớn. Nghiên cứu cho thấy tỷ lệ rút bài trong tài liệu khoa học đã tăng gấp mười lần kể từ năm 1975.

Trong báo chí, Viện Poynter và các tổ chức đạo đức truyền thông khác đã ghi lại một mô hình các trường hợp đạo văn nổi tiếng tại các tổ chức tin tức lớn. Các trường hợp đã liên quan đến phóng viên tại The New York Times, The Washington Post, CNN và Der Spiegel, cùng nhiều tổ chức khác. Một nghiên cứu năm 2014 của Honeycut và Freberg phát hiện các vụ đạo văn nhà báo làm tăng sự không tin tưởng của công chúng đối với các tổ chức tin tức bị ảnh hưởng và đối với truyền thông nói chung.

Xuất bản kỹ thuật số đã làm cho đạo văn vừa dễ thực hiện hơn vừa dễ phát hiện hơn. Các công cụ thu thập nội dung có thể sao chép các bài báo trên hàng nghìn trang web trong vòng vài giờ sau khi xuất bản. Đồng thời, các công cụ phát hiện đạo văn giúp các nhà xuất bản dễ dàng kiểm tra nội dung đến đối chiếu với hàng tỷ trang web được lập chỉ mục và đánh dấu các vấn đề tiềm ẩn trước khi xuất bản.

Tác động tài chính của đạo văn

Hậu quả tài chính của đạo văn ảnh hưởng đến các cá nhân, cơ sở và ngành công nghiệp. Trong môi trường học thuật, học sinh bị phát hiện đạo văn có thể mất học bổng, phải đối mặt với chi phí liên quan đến học phí từ việc trượt khóa học, hoặc phát sinh chi phí liên quan đến tố tụng pháp lý. Một nghiên cứu năm 2020 của Cơ quan Đảm bảo Chất lượng Giáo dục Đại học (QAA) tại Anh ước tính thị trường gian lận theo hợp đồng toàn cầu — nơi sinh viên trả tiền cho bên thứ ba để viết bài tập — trị giá hơn 1 tỷ đô la hàng năm.

Đối với các nhà xuất bản và doanh nghiệp, đạo văn có thể dẫn đến trách nhiệm tài chính trực tiếp. Các vụ kiện vi phạm bản quyền tại Hoa Kỳ thường dẫn đến thiệt hại theo luật định từ 750 đến 30.000 đô la mỗi tác phẩm bị xâm phạm, với hình phạt vi phạm có chủ ý lên đến 150.000 đô la mỗi tác phẩm theo Đạo luật Bản quyền. Authors Guild và các tổ chức tương tự báo cáo rằng hành vi trộm cắp nội dung gây thiệt hại cho tác giả và nhà xuất bản hàng trăm triệu đô la hàng năm trong doanh thu bị mất.

Các cơ sở cũng chịu chi phí. Các trường đại học đầu tư các nguồn lực đáng kể vào cơ sở hạ tầng liêm chính học thuật — giấy phép phần mềm phát hiện đạo văn, cán bộ liêm chính, quy trình điều tra và các chương trình giáo dục. Theo các công bố ngân sách tổ chức, các trường đại học lớn có thể chi 50.000 đến 300.000 đô la hoặc hơn hàng năm chỉ cho các dịch vụ phát hiện đạo văn, đặc biệt là những dịch vụ sử dụng mô hình định giá theo đăng ký theo sinh viên.

Kiểm tra văn bản của bạn với Máy phát hiện đạo văn

Tải bản dùng thử miễn phí hoặc mua giấy phép để bắt đầu kiểm tra đạo văn và nội dung do AI tạo ra.

Áp dụng phòng ngừa và phát hiện

Công nghệ phát hiện đạo văn đã trở thành thực hành tiêu chuẩn trong giáo dục và xuất bản. Theo một cuộc khảo sát năm 2022 của Educause, hơn 90% các cơ sở giáo dục đại học tại Hoa Kỳ và Vương quốc Anh hiện sử dụng một số hình thức phần mềm phát hiện đạo văn. Tỷ lệ áp dụng đang tăng nhanh ở châu Á, Trung Đông và Mỹ Latinh khi nhận thức về liêm chính học thuật tăng lên toàn cầu.

Việc tích hợp phát hiện nội dung AI vào các quy trình kiểm tra đạo văn đại diện cho sự phát triển mới nhất trong công nghệ phòng ngừa. Các cơ sở và nhà xuất bản ngày càng tìm kiếm các công cụ kết hợp phát hiện đạo văn truyền thống với phân tích AI trong một nền tảng duy nhất. Các công cụ trên máy tính để bàn cung cấp lợi thế bổ sung cho các tổ chức coi trọng quyền riêng tư, vì chúng cho phép kiểm tra tài liệu mà không cần tải lên các máy chủ đám mây bên ngoài.

Giáo dục vẫn là chiến lược phòng ngừa lâu dài hiệu quả nhất. Nghiên cứu của McCabe, Butterfield và Trevino (được công bố trong cuốn sách Cheating in College, Johns Hopkins University Press, 2012) phát hiện rằng các cơ sở có quy tắc danh dự và các chương trình giáo dục về liêm chính tích cực trải qua tỷ lệ gian lận thấp hơn 25-50% so với những cơ sở chỉ dựa vào phát hiện và xử phạt. Cách tiếp cận hiệu quả nhất kết hợp các chính sách rõ ràng, giáo dục phổ biến và công nghệ phát hiện đáng tin cậy.

Câu hỏi thường gặp

Đạo văn phổ biến như thế nào trong các trường đại học?

Nghiên cứu của Trung tâm Quốc tế về Tính toàn vẹn học thuật cho thấy khoảng 68% sinh viên đại học thừa nhận một số hình thức gian lận bài viết, với 39% thừa nhận sao chép hoặc diễn đạt lại các nguồn Internet mà không có trích dẫn. Tỷ lệ đạo văn thực tế có thể cao hơn các con số tự báo cáo, vì tự báo cáo có xu hướng đánh giá thấp hành vi không trung thực.

Tỷ lệ bài làm của sinh viên có chứa đạo văn là bao nhiêu?

Dữ liệu của Turnitin cho thấy khoảng 11% bài nộp của sinh viên có sự trùng lặp văn bản đáng kể (trên 25% tương đồng) từ các nguồn không ghi nhận. Tuy nhiên, một mức độ trùng khớp văn bản nào đó là bình thường và được kỳ vọng trong công việc học thuật được trích dẫn đúng cách. Sự phân biệt giữa đạo văn và trích dẫn hợp pháp là rất quan trọng khi giải thích điểm số tương đồng.

Bao nhiêu nội dung do AI tạo ra đang được nộp trong các trường học?

Các ước tính khác nhau, nhưng Turnitin báo cáo vào năm 2024 rằng 6-11% bài nộp của sinh viên có nội dung do AI tạo ra đáng kể. Một khảo sát của BestColleges cho thấy 56% sinh viên đại học đã sử dụng các công cụ AI cho bài học, mặc dù không phải tất cả việc sử dụng đều cấu thành gian lận học thuật — một số cơ sở cho phép hỗ trợ AI cho các nhiệm vụ nhất định.

Đạo văn gây thiệt hại bao nhiêu cho các nhà xuất bản và tác giả?

Vi phạm bản quyền có thể dẫn đến thiệt hại theo luật định từ $750 đến $150.000 mỗi tác phẩm bị vi phạm ở Hoa Kỳ. Thị trường hợp đồng gian lận toàn cầu riêng đã vượt quá $1 tỷ mỗi năm. Các trường hợp đạo văn cá nhân tại các nhà xuất bản đã dẫn đến các thỏa thuận kiện tụng, thu hồi sách và thiệt hại danh tiếng kết thúc sự nghiệp cho các tác giả.

Các công cụ phát hiện đạo văn có thực sự làm giảm gian lận không?

Có. Nghiên cứu cho thấy các cơ sở sử dụng công cụ phát hiện đạo văn trải qua tỷ lệ đạo văn thấp hơn, đặc biệt khi phát hiện được kết hợp với giáo dục và các chính sách toàn vẹn rõ ràng. Hiệu ứng răn đe được ghi nhận tốt: sinh viên biết bài làm của họ sẽ được kiểm tra ít có khả năng đạo văn hơn đáng kể. Nghiên cứu của McCabe cho thấy kết hợp các quy tắc danh dự với công nghệ phát hiện làm giảm gian lận 25-50%.