بهینه‌سازی پارامترهای روش‌های یادگیری ماشین بر ارزیابی ژنومی صفات گسسته دودویی با در نظر گرفتن ساختار جمعیت و توزیع‌های متفاوت فنوتیپ در جمعیت مرجع

تنظیم اولیه و بهینه‌سازی پارامترهای ورودی روش‌های یادگیری ماشین گامی اساسی جهت دستیابی به حداکثر صحت پیش‌بینی ژنومی می‌باشد.  در این تحقیق، جمعیت‌های ژنومی برای سطوح مختلف وراثت‌پذیری (05/0 و 2/0)، عدم تعادل پیوستگی (پایین و بالا) و تعداد متفاوت جایگاه صفات کمی (200 و 600) بر روی 29 کروموزوم شبیه‌سا...

Full description

Bibliographic Details
Main Author: یوسف نادری
Format: Article
Language:fas
Published: Ferdowsi University of Mashhad 2020-04-01
Series:پژوهشهای علوم دامی ایران
Subjects:
Online Access:https://ijasr.um.ac.ir/article_36735_1f0949ee70ff46b2a858cde0525366a0.pdf
Description
Summary:تنظیم اولیه و بهینه‌سازی پارامترهای ورودی روش‌های یادگیری ماشین گامی اساسی جهت دستیابی به حداکثر صحت پیش‌بینی ژنومی می‌باشد.  در این تحقیق، جمعیت‌های ژنومی برای سطوح مختلف وراثت‌پذیری (05/0 و 2/0)، عدم تعادل پیوستگی (پایین و بالا) و تعداد متفاوت جایگاه صفات کمی (200 و 600) بر روی 29 کروموزوم شبیه‌سازی شد. جهت ایجاد نسبت‌های مختلف فنوتیپ آستانه‌ای دودویی، فنوتیپ افراد جمعیت مرجع وابسته به اینکه باقی‌مانده آنها کمتر از ē-1SDe (رویکرد اول) یا 50 درصد افراد جمعیت (رویکرد دوم) باشد کد یک (فنوتیپ نامطلوب) و سایر حیوانات کد صفر (فنوتیپ مطلوب) اختصاص داده شد. برای بهینه‌سازی پارامترهای ورودی مدل، سطوح مختلف تعداد SNP نمونه‌گیری‌شده (100، 1000 و 2000=mtry)، تعداد بوت استراپ (500، 1000 و 2000=ntree) و حداقل اندازه گره پایانی (1 و 5=node size) برای جنگل تصادفی و سطوح مختلف تعداد درخت (100، 1000 و 2000=ntree)، عمق درخت (1، 5 و 10=tc) و نرخ یادگیری (1/0 و 05/0=lc) برای Boosting در نظر گرفته شد. کمترین میزان خطای خارج از کیسه برای mtry برابر با 2000، ntree برابر با 1000 و node size برابر با 1 و کمترین خطای اعتبارسنجی در روش Boosting برای ntree، tc و lr به ترتیب 1000، 10 و 05/0 مشاهده شد. صحت پیش‌بینی ژنومی روش‌های جنگل تصادفی و Boosting با کاهش فنوتیپ نامطلوب (رویکرد اول) افزایش یافت. بطور کلی در تمام سناریوها روش Boosting عملکرد بهتری نسبت به روش جنگل تصادفی داشت که دلیل این امر را می‌توان لحاظ کردن اثرات متقابل بین نشانگرها، خود ترمیمی و قدرت بالای این روش در کاهش خطای مدل دانست.
ISSN:2008-3106
2423-4001