17 مايو، 2023
مناقشة أطروحة دكتوراه للطالب أيوب علي محمد التدريسي في كلية التربية الأساسية
نوقشت اطروحة دكتوراه الموسومة ”
Intelligent Textual Plagiarism Detection Model
” للطالب (أيوب علي محمد سعيد) التدريسي في كلية التربية الأساسية- قسم الرياضيات في قاعة المناقشات بكلية علوم الحاسوب والرياضيات في جامعة الموصل يوم الاحد 14 – 5 – 2023
تناولت الاطروحة الانتحال او السرقة العلمية التي تعرف بانها تقديم أعمال باحثين اخرين على أنها أعمال خاصة بالباحث الحالي دون الإشارة الى المصدر الأصلي لهذه الاعمال. ان اهمية اكتشاف الانتحال ازدادت في الآونة الاخيرة لأن الانتحال أصبح جزءًا مهمًا من أخلاقيات البحث العلمي خاصة في البيئة الأكاديمية.
تم التطرق الى كثير من أصناف وطرائق الانتحال وكذلك التقنيات والأساليب المستخدمة في الكشف عن الانتحال.
اقترحت هذه الأطروحة نموذجين للكشف عن الانتحال النصي.
النموذج الأول يسمى “نموذج الكشف عن الانتحال النصي” والذي يتكون من مرحلتين رئيسيتين: في المرحلة الأولى، يمكن استخدام خوارزمية العنقدة Mini Batch Kmeans أو تقنية قراءة البيانات من الويب web scrape لاسترداد مستندات المصدر ذات العلاقة بالمستند الذي يتم اختباره. تبدأ المرحلة الثانية بالمعالجة المسبقة وتجزئة نصوص المستندات قيد الاختبار ومستندات المصدر باستخدام تقنيات معالجة اللغات الطبيعية (NLP)، ثم يتم استخدام أربعة خوارزميات مقترحة. الأولى هي خوارزمية كشف السرقة الدقيقة (EPD) التي تكتشف الانتحال الدقيق (النسخ واللصق)، الثانية هي خوارزمية الكشف عن الانتحال المعجمي (LPD) التي تكتشف التغييرات المعجمية في نص المصدر بينما يتم اكتشاف التغييرات الدلالية من خلال الكشف عن الانتحال الدلالي (SPD) باستخدام نموذج (USE) المدرب مسبقًا المبني على التعلم العميق (DL). أخيرًا، تم استخدام خوارزمية اكتشاف الانتحال المعجمي-الدلالي المدمجة (MLSPD) لاكتشاف التغييرات المعجمية الدلالية.
النموذج الثاني المقترح يسمى “نموذج الكشف عن الانتحال المبني على الوزن” والذي يعتمد على الوزن المخصص لكل مقطع نصي في المستندات قيد الاختبار. كما في النموذج الأول يتضمن هذا النموذج أيضا أربع خوارزميات مقترحة. خوارزمية كشف الانتحال المعجمي بنفس الاوزان (SWLPD) ، خوارزمية كشف الانتحال الدلالي بنفس الاوزان (SWSPD) ، خوارزمية كشف الانتحال المعجمي بأوزان مختلفة (VWLPD) وخوارزمية الكشف عن الانتحال الدلالي بأوزان مختلفة (VWSPD). تستخدم هذه الخوارزميات لاكتشاف الانتحال في حالتين، إذا كانت قيم الاوزان هي نفسها لجميع أقسام النص قيد الاختبار أو أن هذه الأوزان لها قيم مختلفة.
بعد إجراء العديد من التجارب على كلا النموذجين، سجلت خوارزمية MLSPD التي تستخدم معامل (أو) أعلى نسبة دقة بالاعتماد على معدل التشابه بنسبة 30.3٪ بينما حصلت خوارزمية EPD على أفضل كفاءة بناء على معدل وقت التنفيذ.
تطرقت الدراسة الى استخدام أسلوب
خوارزمية العنقدة Minibatch Kmeans لتقسيم مستندات المصدر الى مجاميع وكذلك تقنيات Web scrape للحصول على المستندات من الويب.
تقنيات معالجة اللغات الطبيعية NLP لأجراء المعالجة المسبقة للنصوص. طريقة k-gram لتقسيم النصوص . تقنيات TF-IDF و USE لترميز النصوص و كذلك مقياس التشابه cosine و قيمة البسط في مقياس التشابه Jaccard لإيجاد نسبة التشابه بين مقطعين او مستندين نصيين بالاعتماد على قيمة حد العتبة threshold المحددة مسبقا .
تهدف الدراسة الى
بناء نموذجين لاكتشاف الانتحال النصي. النموذج الاول مبني على التقنيات الذكية لتحديد نسبة الانتحال بينما النموذج الثاني يوجد نسبة الانتحال حسب الاوزان المحددة لكل مقطع نصي في المستند.
ترأس لجنة المناقشة أ.د. فوزية محمود رمو المحترمة
وعضوية كل من:
ا.د. بيداء إبراهيم خليل عضواَ
ا.م.د. جمال صلاح الدين مجيد عضواَ
ا.م.د. غيداء عبد العزيز مجيد عضواَ
ا.م.د. ميوان بهجت عبد الرزاق عضواَ
ا.م.د. الاء ياسين طه عضواَ ومشرفا