14 مايو، 2023

مناقشة أطروحة الدكتوراه في كلية علوم الحاسوب والرياضيات – قسم علوم الحاسوب للطالب أيوب علي محمد سعيد

مناقشة أطروحة الدكتوراه في كلية علوم الحاسوب والرياضيات – قسم علوم الحاسوب

بعنوان

Intelligent Textual Plagiarism Detection Model

 

استمرارا لحركة البحث العلمي وبمتابعة وحضور السيدة عميد كلية علوم الحاسوب والرياضيات الأستاذ الدكتور ضحى بشير عبد الله المحترمة

نوقشت في قاعة المناقشة بكلية علوم الحاسوب والرياضيات في جامعة الموصل يوم الاحد 14 – 5 – 2023

اطروحة الدكتوراه للطالب أيوب علي محمد سعيد وبإشراف أ.م.د. الاء ياسين طه

تناولت الاطروحة التي تقدم بها الطالب

الانتحال او السرقة العلمية التي تعرف بانها تقديم أعمال باحثين اخرين على أنها أعمال خاصة بالباحث الحالي دون الإشارة الى المصدر الأصلي لهذه الاعمال. ان اهمية اكتشاف الانتحال ازدادت في الآونة الاخيرة لأن الانتحال أصبح جزءًا مهمًا من أخلاقيات البحث العلمي خاصة في البيئة الأكاديمية.

تم التطرق الى كثير من أصناف وطرائق الانتحال وكذلك التقنيات والأساليب المستخدمة في الكشف عن الانتحال.

اقترحت هذه الأطروحة نموذجين للكشف عن الانتحال النصي.

النموذج الأول يسمى “نموذج الكشف عن الانتحال النصي” والذي يتكون من مرحلتين رئيسيتين: في المرحلة الأولى، يمكن استخدام خوارزمية العنقدة Mini Batch Kmeans أو تقنية قراءة البيانات من الويب web scrape لاسترداد مستندات المصدر ذات العلاقة بالمستند الذي يتم اختباره. تبدأ المرحلة الثانية بالمعالجة المسبقة وتجزئة نصوص المستندات قيد الاختبار ومستندات المصدر باستخدام تقنيات معالجة اللغات الطبيعية (NLP)، ثم يتم استخدام أربعة خوارزميات مقترحة. الأولى هي خوارزمية كشف السرقة الدقيقة (EPD) التي تكتشف الانتحال الدقيق (النسخ واللصق)، الثانية هي خوارزمية الكشف عن الانتحال المعجمي (LPD) التي تكتشف التغييرات المعجمية في نص المصدر بينما يتم اكتشاف التغييرات الدلالية من خلال الكشف عن الانتحال الدلالي (SPD) باستخدام نموذج (USE) المدرب مسبقًا المبني على التعلم العميق (DL). أخيرًا، تم استخدام خوارزمية اكتشاف الانتحال المعجمي-الدلالي المدمجة (MLSPD) لاكتشاف التغييرات المعجمية الدلالية.

النموذج الثاني المقترح يسمى “نموذج الكشف عن الانتحال المبني على الوزن” والذي يعتمد على الوزن المخصص لكل مقطع نصي في المستندات قيد الاختبار. كما في النموذج الأول يتضمن هذا النموذج أيضا أربع خوارزميات مقترحة. خوارزمية كشف الانتحال المعجمي بنفس الاوزان (SWLPD) ، خوارزمية كشف الانتحال الدلالي بنفس الاوزان (SWSPD) ، خوارزمية كشف الانتحال المعجمي بأوزان مختلفة (VWLPD) وخوارزمية الكشف عن الانتحال الدلالي بأوزان مختلفة (VWSPD). تستخدم هذه الخوارزميات لاكتشاف الانتحال في حالتين، إذا كانت قيم الاوزان هي نفسها لجميع أقسام النص قيد الاختبار أو أن هذه الأوزان لها قيم مختلفة.

بعد إجراء العديد من التجارب على كلا النموذجين، سجلت خوارزمية MLSPD التي تستخدم معامل (أو) أعلى نسبة دقة بالاعتماد على معدل التشابه بنسبة 30.3٪ بينما حصلت خوارزمية EPD على أفضل كفاءة بناء على معدل وقت التنفيذ.

 

تطرقت الدراسة الى استخدام أسلوب

خوارزمية العنقدة Minibatch Kmeans لتقسيم مستندات المصدر الى مجاميع وكذلك تقنيات Web scrape للحصول على المستندات من الويب.

تقنيات معالجة اللغات الطبيعية NLP لأجراء المعالجة المسبقة للنصوص. طريقة k-gram لتقسيم النصوص . تقنيات TF-IDF و USE لترميز النصوص و كذلك مقياس التشابه cosine  و قيمة البسط في مقياس التشابه Jaccard لإيجاد نسبة التشابه بين مقطعين او مستندين نصيين بالاعتماد على قيمة حد العتبة threshold المحددة مسبقا .

 

تهدف الدراسة الى

بناء نموذجين لاكتشاف الانتحال النصي. النموذج الاول مبني على التقنيات الذكية لتحديد نسبة الانتحال بينما النموذج الثاني يوجد نسبة الانتحال حسب الاوزان المحددة لكل مقطع نصي في المستند.

 

ترأس لجنة المناقشة أ.د. فوزية محمود رمو المحترمة

وعضوية كل من:

ا.د. بيداء إبراهيم خليل عضواَ

ا.م.د. جمال صلاح الدين مجيد عضواَ

ا.م.د. غيداء عبد العزيز مجيد ​عضواَ

ا.م.د. ​ميوان بهجت عبد الرزاق عضواَ

ا.م.د. الاء ياسين طه عضواَ ومشرفا

مشاركة الخبر

مشاركة الخبر