نوقشت اطروحة الدكتوراه الموسومة:
“Design and Implementation of a Robot-Cloud Architecture for Detection and Tracking in the Region of Interest”
التي اعدها الطالب (مهند عزيز جودي) في قسم الهندسة الكهربائية – كلية الهندسة / جامعة بغداد كجزء من متطلبات نيل درجة الدكتوراه في الهندسة الكهربائية وبإشراف الاستاذ المساعد الدكتور منى هادي صالح و الاستاذ الدكتور ضياء جاسم كاظم يوم الخميس المصادف 22/6/2023.تكونت لجنة المناقشة لهذه الاطروحة من الاستاذ الدكتور طارق زياد اسماعيل رئيساُ وعضوية الاستاذ الدكتور فيصل غازي محمد والاستاذ الدكتور محمد عصام يونس والاستاذ المساعد الدكتور زينب توفيق باقر والاستاذ المساعد الدكتور إخلاص كاظم حمزة.
خلاصة اطروحة الطالب كما يلي:
تصنيف الصور هو عملية إيجاد ميزات مشتركة في الصور من مختلف الفئات وتطبيقها لتصنيفها وتسميتها. تتمثل المشكلة الرئيسية لعملية تصنيف الصور في وفرة الصور، التعقيد العالي للبيانات، نقص البيانات المصنفة تمثل العقبات الرئيسية في تصنيف الصور. اقترح هذا العمل نموذجًا مبنيًا من الصفر من CNN له تعقيد حسابي منخفض، طبقات منخفضة، أصغر أحجام مرشحات للتدريب، وتصنيف صور مجموعة بيانات مختلفة مطبقة على مناهج مختلفة ونفذ سيناريوهات عدد اثنين على منظومة مدمجة. في النهج الأول، يتم استخدام تصنيف CNN لزيادة دقة التحقق من صحة اكتشاف أقنعة الوجه. يتكون النموذج المقترح من مرحلتين بما في ذلك كاشف سلسلة هار ثم تطبيق المقترح على مجموعة بيانات الوجوه المقنعة (MAFA)، بعد ذلك مقارنة النتائج مع الخوارزميات الأخرى المستخدمة نفس مجموعة البيانات. يهدف النهج الثاني المقترح لنموذج تصنيف CNN إلى تصنيف الوجوه بثلاث مراحل مطبقة على مجموعة بيانات حقيقية تم إنشاؤها تسمى (MAJFA).
كما تشمل هذه المراحل الثلاث؛ آثار الزيادة (عبر الإنترنت، خارج الإنترنت، وبدون زيادة)، تضمنت المرحلة الثانية التنديد من خلال تطبيق المرشحات المتوسطة، Gaussian، والمتوسطة تضمنت المرحلة الثالثة نموذجًا مقترحًا متعدد الفئات يحتوي على 12 فئة من الصور التي تم تدريبها على مجموعة بيانات MAJFA الحقيقية، لتعزيز دقة التنبؤ بالاختبار، وقت الاختبار، التدريب المسبق والضبط الدقيق مثل (تعلم النقل) يتم تطبيقه على مجموعة البيانات الحقيقية مثل Alex net ،VGG16 ،VGG19، Resnet50، Google net section V3 بحيث تكون دقة الاختبار ووقت الاختبار لنموذجنا المقترح أفضل مقارنة بالنماذج الأخرى التي تصل إلى 99.7٪ و4 ثواني على التوالي.
في النهج الثالث، خوارزمية التعلم الهجين من خلال الجمع بين التعلم العميق والتعلم الآلي لتصنيف الصور بناءً على استخراج الميزات التلافيفية باستخدام نموذج التعلم العميق VGG-16 وسبعة مصنفين. على الجانب الآخر، يقترح هذا العمل نموذجًا لتصنيف الكشف عن الوجه بناءً على منصة سحابية AWS مصممة تهدف إلى تصنيف الوجوه إلى فئتين (إذن وغير إذن). يتم تنفيذ منصتنا السحابية المصممة واختبارها من خلال منظومة كاميرات لالتقاط الصور وتحميلها على AWS S3، ثم تشغيل كاشفين، سلسلة Haar إما MTCNN في AWS EC2، بعد ذلك تتم مقارنة نتائج إخراج هذين الكاشفين باستخدام الدقة ووقت التنفيذ.تظهر النتائج التجريبية للنهج الأول لنموذج التصنيف المقترح أن دقة التحقق من صحة النموذج تصل إلى 97.55٪ إلى 98.43٪ بمعدلات تعلم مختلفة وقيم مختلفة لمتجه الميزات في الطبقة الكثيفة.
بينما تكشف نتائج النهج الثاني أن دقة النموذج وصلت إلى 98.81٪ عندما تم تطبيق نموذج التعزيز غير المتصل بالإنترنت أو المرشح المتوسط على مجموعة البيانات الفعلية. وصلت إلى 97.48٪ عندما تم تطبيق النموذج المقترح متعدد الفئات من CNN لتحديد فئة عدم الإذن. في النهج الثالث، تظهر نتائج المحاكاة أن آلة متجه الدعم (SVM) لديها خطأ مربع متوسط قدره 0.011، ونسبة دقة إجمالية تبلغ 98.80٪، ودرجة F1 تبلغ 0.99. علاوة على ذلك، تظهر النتائج أن مصنف LR لديه خطأ مربع متوسط قدره 0.035، ونسبة إجمالية 96.42٪، ودرجة F1 0.96 تأتي في المركز الثاني. مصنف ANN لديه متوسط خطأ مربع 0.047، بنسبة إجمالية 95.23٪، ودرجة F1 0.94 تأتي في المركز الثالث. علاوة على ذلك، تتقدم RF، WKNN، DT، NB مع متوسط خطأ مربع ودرجة F1 إلى المرحلة التالية مع نسب دقة 91.66٪، 90.47٪، 79.76٪، 75٪ على التوالي.