تکنیک شگفت انگیز گوگل در تشخیص عکس های مهم

به گزارش کلیک، محققان گوگل سیستم های بینایی کامپیوتری را به گونه ای تعلیم داده اند تا  مهم ترین فرد در یک صحنه را تشخیص دهند، قسمت های مختلف بدن را ردیابی کنند و موارد مشاهده شده را با جزئیات کامل با استفاده از یک زبان مشخص بیان کنند.

تکنیک شگفت انگیز گوگل در تشخیص عکس های مهم

به گزارش کلیک، محققان گوگل سیستم های بینایی کامپیوتری را به گونه ای تعلیم داده اند تا مهم ترین فرد در یک صحنه را تشخیص دهند، قسمت های مختلف بدن را ردیابی کنند و موارد مشاهده شده را با جزئیات کامل با استفاده از یک زبان مشخص بیان کنند.

ابتدا، توانایی پیدا کردن "حوادث و بازیگران اصلی" را که نتیجه یک همکاری بین گوگل و استنفورد است را در نظر بگیرید. فیلم هایی از صحنه های یک بازی مانند بازی های بسکتبال حاوی ده ها یا حتی صدها نفر از افراد است، اما تنها تعداد معدودی از آن ها ارزشش را دارند که به آن ها توجه شود. سیستم CV که در این مطلب به آن می پردازیم، از یک شبکه عصبی بازگشتی جهت ایجاد یک ماسک توجه برای هر فریم استفاده می کند و سپس با گذشت زمان، ارتباط هر شیء را با قسمت های دیگر بررسی می کند.

basketball_actors

در طول زمان، این سیستم نه تنها قادر به انتخاب و بررسی مهم ترین فرد یا بازیکن است، بلکه افرادی که می توانند به طور بالقوه از اهمیت چندانی برخوردار باشند و یا حوادثی که آن افراد با آن ها در ارتباط هستند نیز در سیطره پشتیبانی این سیستم قرار می گیرد تا هیچ مورد خاص و یا مهمی از قلم نیفتد. این موضوع را می توانید این گونه بهتر متوجه شوید: این سیستم قادر است تا بازیکنی را که به سمت سبد می دود تا توپ برگشتی از سمت سبد را داخل سبد جای دهد، مهم جلوه می دهد، اما مهم ترین بازیکن، کسی است که به خوبی دفاع و از این رخداد جلوگیری می کند. اگر کمی دقت کنیم، متوجه می شویم که نشانه های عملکرد بی نظیر این سیستم و مرتب سازی اشیا و صحنه ها با میزان اهمیت مختلف، مخصوصا در تکه فیلم های ضلوغ مانند خیابان های پر تردد و فرودگاه ها قابل توجه است.

موضوع دیگری که راجع به این سیستم وجود دارد، کمی عجیب و غریب به نظر می رسد! محققان یک سیستم CV تولید کرده اند که پای ببر ها را کشف و بررسی می کند.

ببرها و تعدادی از اسب ها که از آن ها به عنوان کلاس های شیء بند بند (اشیایی که دارای قسمت های دائم الحرکت هستند) یاد می شود، برای این سیستم تعریف شده اند تا مشاهده و درک شوند. با تشخیص قسمت های حرکتی مستقل و حرکت و موقعیت آن قسمت ها در ارتباط با بقیه اعضای حیوان، می توان اعضای مختلف بدن حیوان را فریم به فریم بررسی و مشخص کرد. پیشرفت قابل ملاحظه ای که در این باب به چشم می آید، توانایی این برنامه در تشخیص موارد مذکور در بین تعداد زیادی از فیلم هاست؛ حتی در زمانی که حیوان در جهات متفاوتی می دود و حرکت می کند.

tiger_parts

البته این طور نیست که مثلا ما به شدت نیاز به جمع آوری اطلاعاتی راجع به قسمت جلویی پای چپ ببر ها داشته باشیم؛ همین که می توانیم قسمت های مختلف بدن یک فرد، حیوان و یا ماشین خاص را پیدا و ردیابی کنیم، می تواند نقطه عطفی برای پیشرفت های قابل توجه در طول زمان باشد. حتی تصور این که بتوانیم در یک فیلم، تنها قسمت های مربوط به حیوان های تگ شده، افرادی که گوشی به دست هستند و یا دوچرخه های مجهز به سبد را مورد بررسی قرار دهیم، نوید بخش پیشرفت هایی در در این زمینه است. البته نمی توان انکار کرد که جنبه نظارتی این سیستم می تواند منجر به موضوعاتی مانند ترس بالقوه شود، اما در واقع این کار به خودی خود شگفت انگیز است. این موضوع نیز نتیجه همکاری میان دانشگاه ادینبرگ و گوگل است.

آخرین قابلیت این سیستم که شاید برای کاربرد روزانه کمی ملموس تر به نظر برسد، توانایی بینایی کامپیوتری است. سیستم های CV به مدت طولانی قادر به طبقه بندی اشیایی بوده اند که مشاهده می کرده اند؛ یک فرد، میز،سطح و یا یک ماشین، اما نکته این جاست که در توصیف این اشیا و پدیده ها، شاید همیشه دقت مورد انتظار ما از طرف سیستم براورده نشود؛ به طور مثال، بر روی یک میز پر از شیشه شربت، کدام یک مال شماست؟ یا در جمعی از افراد، کدام یک دوست شماست!؟

image_descriptions

این مسئله که از طرف محققین گوگل، UCLA، آکسفورد و جان هاپکینز مورد بررسی قرار گرفته است، روشی را ارائه می کند که با استفاده از آن، یک کامپیوتر می تواند اشیای مختلف را بدون پیچیدگی خاصی تشخیص دهد. بنای کار این سیستم ها، ترکیب منطق با سیستم های قدرتمند در عرصه توضیحات تصاویر است؛ سیستم هایی که توضیحاتی مانند" مرد قرمزپوشی که در حال خوردن بستنی است، نشته است" تولید می کنند.

در حقیقت، کامپیوتر به دنبال توصیف ملموسی برای شیء مورد نظر می گردد و سپس بعد از جمع آوری توضیحات و توضیف ها، آن ها را برای شیء به کار می برد. بنابراین در میان تعداد زیادی لپ تاپ، سیستم می تواند بگوید" لپ تاپ خاکستری روشن است" و یا اگر چندین لپ تاپ به طور همزمان روشن هستند، می تواند بگوید "لپ تاپ خاکستری که روشن است، در حال نمایش یک زن در لباس آبی است" و یا مثال هایی از این نوع.

این مسائل، از آن دسته موضوعاتی هستند که انسان ها دائما بدون نیاز به فکر کردن، آن ها را انجام می دهند؛ در حالی که همین کار ها برای کامپیوتر ها بسیار سخت است. این درست است که اگر کامپیوتر ها به شما راجع به یک شیء توضیح دقیق بدهند، می تواند بسیار مفید باشد، اما ممکن است روزی به ربات خود بگویید که از میان گوجه فرنگی ها، سیب زمینی را به شما بدهد؛ آن وقت قضیه کمی فرق می کند!

به طور طبیعی، هر سه این موضوعات از روش های یادگیری عمیق و شبکه های عصبی استفاده می کنند که موضوعات حال این روز های سیستم های کامپیوتری هستند. از آن جا که کامپیوتر ها و سیستم ها پیشرفت فوق العاده ای داشتند، می توان بسیار به آینده امیدوار بود.

منبع: Techcrunch

ارسال نظر