معماری پیشرفته- الگوریتمهای یادگیری عمیق، در مقایسه با الگوریتمهای یادگیری ماشین از مدلهای مختلفی تشکیل شدهاند. دلیل این امر انعطافپذیری است که شبکههای عصبی در هنگام ساخت یک مدل تکامل یافته ارائه میدهند. شبکههای عصبی را در برخی اوقات میتوان با آجرهای لگویی مقایسه کرد. با آنها میتوانید هرگونه ساختار ساده و پیچیدهای که تصورش را میکنید، بسازید.
میتوانیم معماری پیشرفته را اینگونه تعریف کنیم: یک شبکه عصبی که بر اساس بررسیها، عملکرد موفق آن اثبات شده است. همچین چیزی را بیشتر در چالشهای «ImageNet» میبینیم که در آن باید یک مسالهای را (که عموما شناسایی تصویر است)، بر اساس اطلاعات داده شده حل کنیم. «ImageNet» یک مجموعهای از دادهها است که در چالش «ILSVR) ImageNet Large Scale Visual Recognition) ارائه داده میشود.
همچنین، همانطور که در معماریهای پایینتر گفته شدهاست، هرکدام این معماریها یک فرق جزئی دارند که آنها را از مدلهای معمولی جدا میکند و یک مرحله در حل مسائل آنها را جلوتر میبرد. همچنین، این معماریها در دستهبندی «مدلهای عمیق» قرار میگیرند، در نتیجه در مقابل همتای سطحیترشان، بهتر عمل میکنند.
وظایف بینایی ماشین
این مقاله بیشتر برروی بینایی ماشین تمرکز دارد، در نتیجه طبیعی است که در آن تعریفی کلی از وظایف بینایی ماشین داشته باشیم. همانطور که از اسم آن پیداست، بینایی ماشین یعنی ساخت یک سری مدل مصنوعی که میتوانند کارهای بینایی انسان را انجام دهند. این بدین معنا است که چیزی که ما میبینیم و کاری که ما انجام میدهیم یک پروسه قابل فهم است که میتواند در یک سیستم مصنوعی نیز اعمال شود.
وظایف اصلی بینایی ماشین را میتوان به موارد زیر تقسیم کرد:
- شناسایی یا دستهبندی شیء: در شناسایی شیء، یک تصویر خام را تحویل میگیرید و باید تشخیص دهید که مربوط به کدام دسته میشود.
- دستهبندی و مکانشناسی: در این حالت شما یک تصویر دارید که فقط یک شیء در آن وجود دارد و باید جای آن شیء را پیدا کنید. به این کار «مساله مکانشناسی» نیز میگویند.
- پیداکردن شیء: در این حالت شما باید موقعیت شیء در تصویر را پیدا کنید. این اشیا میتوانند از کلاسهای متفاوت باشند.
- تقسیمبندی تصویر: تقسیمبندی تصویر وظیفه سنگینتری است. در این حالت باید تمام پیکسلها را بر اساس دسته درست آن پیدا کنید.