এছাড়াও, তারা বোঝে না – লেখা ভাষা। ভাষার ব্যবহার। ছবি নির্মাণের ভাষা, নাটক নির্মাণের ভাষা। ভাষা ব্যবহার করতে শেখার দক্ষতা প্রয়োজন।
– জন মিলিয়াস
দৃষ্টি-ভাষা কাজ, যেমন ছবির ক্যাপশনিং, চাক্ষুষ প্রশ্নের উত্তরএবং চাক্ষুষ কমনসেন্স যুক্তিচাক্ষুষরূপে অবহিত সিস্টেমের যুক্তি ক্ষমতা মূল্যায়নের জন্য সমৃদ্ধ পরীক্ষা-শয্যা হিসাবে পরিবেশন করুন।
এই কাজগুলির জন্য ভিজ্যুয়াল বিষয়বস্তু, ভাষার শব্দার্থবিদ্যা এবং ক্রস-মোডাল প্রান্তিককরণগুলির একটি যৌথ বোঝার প্রয়োজন।

বিভিন্ন এনএলপি কাজগুলিতে BERT-এর সাফল্যের সাথে, ভিলবার্ট এবং ভিএল-বার্ট ইত্যাদির মতো ভিশন-ভাষা কাজের জন্য প্রাক-প্রশিক্ষিত মডেল তৈরিতে বৃদ্ধি পেয়েছে। তবে, এই মডেলগুলি কার্যকর শেখার ক্ষেত্রে মৌলিক অসুবিধার সম্মুখীন হয়। চাক্ষুষরূপে ভিত্তি উপস্থাপনা এবং বিভিন্ন বৈশিষ্ট্যের মধ্যে সম্পর্ক।
এখানে, আমি দুটি ভিন্ন গবেষণা কাজের ব্যাখ্যা করতে চাই যা মাল্টি-মডেল ট্রান্সফরমারের সাথে চিত্র এবং পাঠ্য তথ্য সারিবদ্ধ করার ক্ষেত্রে যুগান্তকারী।

Pixel-BERT হল একটি ইউনিফাইড এন্ড-টু-এন্ড ফ্রেমওয়ার্ক যা গভীর মাল্টি-মডেল ট্রান্সফরমার দ্বারা ইমেজ পিক্সেলকে পাঠ্যের সাথে সারিবদ্ধ করে যা যৌথভাবে ভিজ্যুয়াল এবং ভাষা এম্বেডিং শেখে। পিক্সেল-বিআরটি যা পিক্সেল এবং পাঠ্য স্তরে শব্দার্থিক সংযোগ সারিবদ্ধ করে অঞ্চল-ভিত্তিক চিত্র বৈশিষ্ট্য নিষ্কাশনকারীদের সীমাবদ্ধতার সমাধান করে (যেমন, দ্রুত আর-সিএনএন)যা নির্দিষ্ট ভিজ্যুয়াল কাজের জন্য ডিজাইন করা হয়েছে (যেমন বস্তু সনাক্তকরণ), এবং এটি ভাষা বোঝার ক্ষেত্রে একটি তথ্য ব্যবধান সৃষ্টি করবে। চাক্ষুষ তথ্যের কিছু গুরুত্বপূর্ণ কারণ হারিয়ে গেছে, যেমন বস্তুর আকার, ওভারল্যাপযুক্ত বস্তুর মধ্যে স্থানিক সম্পর্ক ইত্যাদি।
আমরা কিছু উদাহরণ দেখাই যে অঞ্চল-ভিত্তিক চাক্ষুষ বৈশিষ্ট্যগুলি ভালভাবে পরিচালনা করতে পারে না আকার 1. ভিতরে উদাহরণ (A), অবজেক্ট ডিটেকশন মডেলের জন্য প্লেনের স্থিতি পাওয়া কঠিন। জন্য উদাহরণ (B), যদিও আমরা “মেয়ে” এবং “গ্রাউন্ড” সনাক্ত করতে পারি যেহেতু তাদের অঞ্চলগুলির মধ্যে ওভারল্যাপ রয়েছে, এটি আরও কঠিন হবে ফিউশন এমবেডিং মডেলের জন্য তাদের আবদ্ধ বাক্সের কারণে প্রকৃত স্থানিক সম্পর্ক বিচার করা। একইভাবে ইন উদাহরণ (C)শুধুমাত্র “জিরাফ” এর চাক্ষুষ বৈশিষ্ট্য সহ, প্রাণীদের অবস্থা অনুমান করা কঠিন।

Pixel-BERT: মডেলটিতে একটি ভিজ্যুয়াল বৈশিষ্ট্য এমবেডিং মডিউল, একটি বাক্য বৈশিষ্ট্য এমবেডিং মডিউল এবং একটি ক্রস-মডালিটি অ্যালাইনমেন্ট মডিউল রয়েছে। Pixel-BERT ইনপুট হিসাবে ইমেজ-বাক্য জোড়া নেয় এবং প্রতিটি ইনপুট উপাদানের মনোযোগ বৈশিষ্ট্য আউটপুট করে। ইমেজ একটি পিক্সেল বৈশিষ্ট্য এম্বেডিং মডিউল পিক্সেল পিক্সেল দ্বারা পাস করা হয় এবং বাক্য একটি বাক্য বৈশিষ্ট্য এমবেডিং মডিউল টোকেন দ্বারা টোকেন মধ্যে খাওয়ানো হয়. মডেলটি এমএলএম এবং আইটিএম কাজগুলির দ্বারা প্রাক-প্রশিক্ষিত হতে পারে এবং নমনীয়ভাবে ডাউনস্ট্রিম কাজগুলিতে প্রয়োগ করা যেতে পারে (যেমন ভিকিউএ, পুনরুদ্ধার ইত্যাদি)।
বাক্য বৈশিষ্ট্য এমবেডিং
একটি বাক্যকে ইনপুট হিসাবে দেওয়া হলে, আমরা প্রথমে এটিকে শব্দের ক্রমানুসারে বিভক্ত করি এবং ব্যবহার করি ওয়ার্ডপিস প্রতিটি শব্দকে টোকেনে পরিণত করতে। তারপরে আমরা প্রতিটি টোকেনকে একটি ভেক্টরে এম্বেড করার জন্য একটি এমবেডিং ম্যাট্রিক্স গ্রহণ করি। এখানে আমরা w = {w1, w2, …, wn} ∈ R ব্যবহার করি এমবেডেড সিকোয়েন্সের প্রতিনিধিত্ব করতে, যেখানে n সিকোয়েন্সের দৈর্ঘ্য নির্দেশ করে এবং d হল এমবেডিং ডাইমেনশন।

যেখানে i অবস্থানে pi এম্বেডিং ভেক্টর নির্দেশ করে, sw হল একটি শব্দার্থিক এম্বেডিং ভেক্টর এবং LayerNorm হল একটি স্বাভাবিককরণ ফাংশন।
ইমেজ ফিচার এমবেডিং
একটি ইনপুট ইমেজ I দেওয়া হয়েছে, আমরা প্রথমে CNN ব্যাকবোন ব্যবহার করি এর বৈশিষ্ট্য বের করতে, তারপর বৈশিষ্ট্যটিকে স্থানিক মাত্রা বরাবর সমতল করি। আমরা সমতল বৈশিষ্ট্যটিকে v = {v1, v2, …, vk} ∈ R হিসাবে চিহ্নিত করি, যেখানে k বৈশিষ্ট্য পিক্সেলের সংখ্যা নির্দেশ করে। ভিজ্যুয়াল এম্বেডিং বৈশিষ্ট্য {vˆ1, vˆ2, …, vˆk} দ্বারা গণনা করা যেতে পারে

যেখানে sv একটি শব্দার্থিক এম্বেডিং ভেক্টর ভাষা এমবেডিংয়ের সাথে পার্থক্যকে আলাদা করতে। যেহেতু সমস্ত পিক্সেল একই sv ভাগ করে, তাই এই এমবেডিং ভেক্টরটিকে সিএনএন ব্যাকবোনের সাথে একত্রিত করার জন্য একটি পক্ষপাতমূলক শব্দ হিসাবে বিবেচনা করা যেতে পারে।
ক্রস-মোডালিটি মডিউল
বাক্য এমবেডিং ভেক্টর এবং পিক্সেল বৈশিষ্ট্যগুলি পাওয়ার পরে, আমরা ইনপুট ক্রম তৈরি করতে সমস্ত ভেক্টরকে একত্রিত করি। আমরা দুটি বিশেষ টোকেন যোগ করেছি [CLS] এবং [SEP] যৌথ শ্রেণীবিভাগের বৈশিষ্ট্য শেখার জন্য এবং যথাক্রমে টোকেন দৈর্ঘ্য নির্দিষ্ট করার জন্য। জয়েন্ট-লার্নিং ট্রান্সফরমারের চূড়ান্ত ইনপুট সিকোয়েন্সটি এভাবে প্রণয়ন করা হয়

পিক্সেল-বিইআরটি ভাষা এবং পিক্সেল জুড়ে ক্রস-মডালিটি মনোযোগের মাধ্যমে ভিজ্যুয়াল উপস্থাপনা ভালভাবে শিখতে পারে কিনা তা আরও পরীক্ষা করার জন্য, নীচে উদাহরণগুলিতে মনোযোগ মানচিত্রের কিছু মধ্যবর্তী ফলাফল রয়েছে।

ভিজ্যুয়ালাইজেশন ফলাফল পাওয়া যাবে চিত্র 3. এর ফলাফল থেকে মামলা (A), আমরা দেখতে পাচ্ছি যে টোকেন “কুকুর”, “ঘাস” এবং “ফ্রিসবি” এর প্রতিক্রিয়া ক্ষেত্রগুলি আসলে সঠিক অঞ্চলে বিতরণ করা হয়েছে। জন্য মামলা (বি), আমরা দেখতে পারি যে যদিও “কাটিং” একটি ক্রিয়া, এটি সবচেয়ে সম্পর্কিত অঞ্চলে উপস্থিত হতে পারে যেখানে একটি ছুরি দিয়ে “কাটিং” এর কাজ করা হয়। থেকে মামলা (C)আমরা দেখতে পাই যে টোকেন “রুম” চিত্রের সঠিক অঞ্চলে উপস্থিত হতে পারে৷
দৃষ্টি-ভাষা কাজের জন্য প্রাক-প্রশিক্ষিত মডেল, যেমন ভিলবার্ট, ভিএল-বার্ট, এবং ইউনিটার, সমৃদ্ধ ভিজ্যুয়াল তথ্য উপেক্ষা করুন, যেমন বৈশিষ্ট্য এবং বস্তুর মধ্যে সম্পর্ক। প্রাসঙ্গিক সংকেতের মতো তথ্য ছাড়া, ভিজ্যুয়াল গ্রাউন্ডিংয়ে অস্পষ্টতার মূল চ্যালেঞ্জটি সমাধান করা কঠিন। ভিজ্যুয়াল দৃশ্য গ্রাফ উপরের চ্যালেঞ্জগুলি মোকাবেলা করার জন্য দৃষ্টি-ভাষা শব্দার্থকে সারিবদ্ধ করার সেতু হিসাবে। আধুনিক দৃশ্য গ্রাফ জেনারেটর ব্যবহার করে চিত্র থেকে ভিজ্যুয়াল দৃশ্যের গ্রাফ বের করা হয়েছে, একটি চাক্ষুষ দৃশ্য গ্রাফ কার্যকরভাবে গুরুত্বপূর্ণ বস্তু এবং তাদের সম্পর্ককে চিত্রিত করে।
সামফর্মার (অর্থাৎ সারিবদ্ধ মাল্টি-মডাল ট্রান্সফরমার) টেক্সট, ইমেজ এবং গ্রাফিকাল স্ট্রাকচারের পদ্ধতির মধ্যে সারিবদ্ধতা শেখে। দৃশ্য গ্রাফে প্রতিটি বস্তু-সম্পর্কের লেবেলের জন্য, মডেলটি সহজেই প্রাকৃতিক ভাষায় উল্লেখ করা পাঠ্য অংশগুলি খুঁজে পেতে পারে এবং তারপরে দৃশ্য গ্রাফের সাথে ইতিমধ্যেই যুক্ত চিত্র অঞ্চলগুলির সাথে সারিবদ্ধ করতে শিখতে পারে।

একটি ইমেজ-টেক্সট পেয়ার (I, w) দেওয়া হয়েছে, আমরা প্রথমে একটি দৃশ্য গ্রাফ জেনারেটর দিয়ে চিত্র থেকে ভিজ্যুয়াল দৃশ্য গ্রাফ G বের করি। একটি দৃশ্য গ্রাফ হল একটি নির্দেশিত গ্রাফ যা নোডগুলিকে প্রতিনিধিত্ব করে এবং প্রান্তগুলি তাদের জোড়াভিত্তিক সম্পর্ককে চিত্রিত করে। আমরা প্রথমে একটি প্রাক-প্রশিক্ষিত BERT এম্বেডারের সাহায্যে টেক্সট সিকোয়েন্স w এবং সিন গ্রাফ ট্রিপলেট উভয়েই টোকেন এম্বেড করি। তারপরে আমরা দ্রুত R-CNN এর সাথে প্রতিটি চিত্র অঞ্চলের ভিজ্যুয়াল এম্বেডিং এবং প্রতিটি ট্রিপলেটের ইউনিয়ন অঞ্চল বের করি।

সমস্ত এমবেডিং ভেক্টরকে তারপরে একটি ট্রান্সফরমার নেটওয়ার্কে খাওয়ানো হয় স্ব-মনোযোগ ব্যবস্থা সহ সারিবদ্ধকরণ অনুমান করার জন্য, চিত্র 5 এ দেখানো হয়েছে।

এখানে, আমি ফাস্ট আর-সিএনএন আর্কিটেকচার প্রদান করেছি, যা একটি আঞ্চলিক-ভিত্তিক অবজেক্ট ডিটেক্টর যা উপরের অ্যালগরিদম দ্বারা ব্যবহৃত হয়। ফাস্টার R-CNN আর্কিটেকচারে RPN একটি অঞ্চল প্রস্তাবনা অ্যালগরিদম এবং ফাস্ট R-CNN একটি ডিটেক্টর নেটওয়ার্ক হিসাবে রয়েছে। ফাস্ট আর-সিএনএন সম্পর্কিত গভীর আলোচনা আমাদের আলোচ্যসূচির বাইরে, তাই, চবা আরো তথ্য এখানে যান.
আমরা ভিজ্যুয়াল এমবেডিং পদ্ধতি নিয়ে আলোচনা করি যা সাধারণত বিদ্যমান কাজে ব্যবহৃত হয় এবং অঞ্চল-ভিত্তিক ভিজ্যুয়াল প্রতিনিধিত্বের সীমাবদ্ধতা সমাধান করার লক্ষ্য রাখি। আমরা একটি CNN-ভিত্তিক ভিজ্যুয়াল এনকোডারও দেখেছি এবং এটিকে মাল্টি-মডেল ট্রান্সফরমারের সাথে একত্রিত করেছি যাতে পিক্সেল-বিইআরটি এন্ড-টু-এন্ড পদ্ধতিতে তৈরি করা যায় এবং পিক্সেল এবং টেক্সট স্তরে ভিজ্যুয়াল এবং ভাষাগত বিষয়বস্তুর মধ্যে আরও সঠিক এবং আরও পুঙ্খানুপুঙ্খভাবে এম্বেডিং তৈরি করা যায়। . Samformer, দৃষ্টি-ভাষা প্রাক-প্রশিক্ষণের জন্য একটি অভিনব শব্দার্থিক সারিবদ্ধ মাল্টি-মডাল ট্রান্সফরমার মডেল। আমরা দৃশ্যমান এম্বেডিংয়ের সাথে ট্রিপলেট ট্যাগ ব্যবহার করে ভিজ্যুয়াল দৃশ্যের গ্রাফ এবং পাঠ্যকে স্পষ্টভাবে সারিবদ্ধ করি।
[1]Pixel-BERT: গভীর মাল্টি-মোডাল ট্রান্সফরমার দ্বারা পাঠ্যের সাথে চিত্র পিক্সেল সারিবদ্ধ করা: https://arxiv.org/pdf/2004.00849.pdf
[2]দৃষ্টি-ভাষা বোঝার জন্য শব্দার্থিক সারিবদ্ধ মাল্টি-মডেল ট্রান্সফরমার: ভিজ্যুয়াল QA-এর উপর একটি প্রাথমিক অধ্যয়ন: https://aclanthology.org/2021.maiworkshop-1.11.pdf
[3]বস্তু সনাক্তকরণের জন্য দ্রুত R-CNN: https://towardsdatascience.com/faster-r-cnn-for-object-detection-a-technical-summary-474c5b857b46
[4]কথোপকথনমূলক প্রশ্ন উত্তর সিস্টেমের প্রাথমিক অন্তর্দৃষ্টি (CQA): https://medium.com/@ardeshnabhavik/basic-intuition-of-conversational-question-answering-systems-cqa-cf79bb5fa1d6
[5]নিম্ন-সম্পদ ভাষার জন্য প্রশ্নের উত্তরের কর্মক্ষমতা উন্নত করতে ইংরেজি ডেটার সুবিধা নিতে ক্যাসকেডিং অ্যাডাপ্টার: https://arxiv.org/abs/2112.09866