بهینهسازی پارامترهای روشهای یادگیری ماشین بر ارزیابی ژنومی صفات گسسته دودویی با در نظر گرفتن ساختار جمعیت و توزیعهای متفاوت فنوتیپ در جمعیت مرجع
تنظیم اولیه و بهینهسازی پارامترهای ورودی روشهای یادگیری ماشین گامی اساسی جهت دستیابی به حداکثر صحت پیشبینی ژنومی میباشد. در این تحقیق، جمعیتهای ژنومی برای سطوح مختلف وراثتپذیری (05/0 و 2/0)، عدم تعادل پیوستگی (پایین و بالا) و تعداد متفاوت جایگاه صفات کمی (200 و 600) بر روی 29 کروموزوم شبیهسا...
Main Author: | |
---|---|
Format: | Article |
Language: | fas |
Published: |
Ferdowsi University of Mashhad
2020-04-01
|
Series: | پژوهشهای علوم دامی ایران |
Subjects: | |
Online Access: | https://ijasr.um.ac.ir/article_36735_1f0949ee70ff46b2a858cde0525366a0.pdf |
Summary: | تنظیم اولیه و بهینهسازی پارامترهای ورودی روشهای یادگیری ماشین گامی اساسی جهت دستیابی به حداکثر صحت پیشبینی ژنومی میباشد. در این تحقیق، جمعیتهای ژنومی برای سطوح مختلف وراثتپذیری (05/0 و 2/0)، عدم تعادل پیوستگی (پایین و بالا) و تعداد متفاوت جایگاه صفات کمی (200 و 600) بر روی 29 کروموزوم شبیهسازی شد. جهت ایجاد نسبتهای مختلف فنوتیپ آستانهای دودویی، فنوتیپ افراد جمعیت مرجع وابسته به اینکه باقیمانده آنها کمتر از ē-1SDe (رویکرد اول) یا 50 درصد افراد جمعیت (رویکرد دوم) باشد کد یک (فنوتیپ نامطلوب) و سایر حیوانات کد صفر (فنوتیپ مطلوب) اختصاص داده شد. برای بهینهسازی پارامترهای ورودی مدل، سطوح مختلف تعداد SNP نمونهگیریشده (100، 1000 و 2000=mtry)، تعداد بوت استراپ (500، 1000 و 2000=ntree) و حداقل اندازه گره پایانی (1 و 5=node size) برای جنگل تصادفی و سطوح مختلف تعداد درخت (100، 1000 و 2000=ntree)، عمق درخت (1، 5 و 10=tc) و نرخ یادگیری (1/0 و 05/0=lc) برای Boosting در نظر گرفته شد. کمترین میزان خطای خارج از کیسه برای mtry برابر با 2000، ntree برابر با 1000 و node size برابر با 1 و کمترین خطای اعتبارسنجی در روش Boosting برای ntree، tc و lr به ترتیب 1000، 10 و 05/0 مشاهده شد. صحت پیشبینی ژنومی روشهای جنگل تصادفی و Boosting با کاهش فنوتیپ نامطلوب (رویکرد اول) افزایش یافت. بطور کلی در تمام سناریوها روش Boosting عملکرد بهتری نسبت به روش جنگل تصادفی داشت که دلیل این امر را میتوان لحاظ کردن اثرات متقابل بین نشانگرها، خود ترمیمی و قدرت بالای این روش در کاهش خطای مدل دانست. |
---|---|
ISSN: | 2008-3106 2423-4001 |