মাল্টি-মডাল ট্রান্সফরমার ব্যবহার করে ভাষাগত এবং ভিজ্যুয়াল বোঝার শব্দার্থিক প্রান্তিককরণ | by Bhavik Ardeshna | জুন, 2022

এছাড়াও, তারা বোঝে না – লেখা ভাষা। ভাষার ব্যবহার। ছবি নির্মাণের ভাষা, নাটক নির্মাণের ভাষা। ভাষা ব্যবহার করতে শেখার দক্ষতা প্রয়োজন।

– জন মিলিয়াস

দৃষ্টি-ভাষা কাজ, যেমন ছবির ক্যাপশনিং, চাক্ষুষ প্রশ্নের উত্তরএবং চাক্ষুষ কমনসেন্স যুক্তিচাক্ষুষরূপে অবহিত সিস্টেমের যুক্তি ক্ষমতা মূল্যায়নের জন্য সমৃদ্ধ পরীক্ষা-শয্যা হিসাবে পরিবেশন করুন।

এই কাজগুলির জন্য ভিজ্যুয়াল বিষয়বস্তু, ভাষার শব্দার্থবিদ্যা এবং ক্রস-মোডাল প্রান্তিককরণগুলির একটি যৌথ বোঝার প্রয়োজন।

চিত্র 1: ছবি, প্রশ্ন (প্রশ্ন) এবং উত্তর (A) এর উদাহরণ

বিভিন্ন এনএলপি কাজগুলিতে BERT-এর সাফল্যের সাথে, ভিলবার্ট এবং ভিএল-বার্ট ইত্যাদির মতো ভিশন-ভাষা কাজের জন্য প্রাক-প্রশিক্ষিত মডেল তৈরিতে বৃদ্ধি পেয়েছে। তবে, এই মডেলগুলি কার্যকর শেখার ক্ষেত্রে মৌলিক অসুবিধার সম্মুখীন হয়। চাক্ষুষরূপে ভিত্তি উপস্থাপনা এবং বিভিন্ন বৈশিষ্ট্যের মধ্যে সম্পর্ক।

এখানে, আমি দুটি ভিন্ন গবেষণা কাজের ব্যাখ্যা করতে চাই যা মাল্টি-মডেল ট্রান্সফরমারের সাথে চিত্র এবং পাঠ্য তথ্য সারিবদ্ধ করার ক্ষেত্রে যুগান্তকারী।

Pixel-BERT হল একটি ইউনিফাইড এন্ড-টু-এন্ড ফ্রেমওয়ার্ক যা গভীর মাল্টি-মডেল ট্রান্সফরমার দ্বারা ইমেজ পিক্সেলকে পাঠ্যের সাথে সারিবদ্ধ করে যা যৌথভাবে ভিজ্যুয়াল এবং ভাষা এম্বেডিং শেখে। পিক্সেল-বিআরটি যা পিক্সেল এবং পাঠ্য স্তরে শব্দার্থিক সংযোগ সারিবদ্ধ করে অঞ্চল-ভিত্তিক চিত্র বৈশিষ্ট্য নিষ্কাশনকারীদের সীমাবদ্ধতার সমাধান করে (যেমন, দ্রুত আর-সিএনএন)যা নির্দিষ্ট ভিজ্যুয়াল কাজের জন্য ডিজাইন করা হয়েছে (যেমন বস্তু সনাক্তকরণ), এবং এটি ভাষা বোঝার ক্ষেত্রে একটি তথ্য ব্যবধান সৃষ্টি করবে। চাক্ষুষ তথ্যের কিছু গুরুত্বপূর্ণ কারণ হারিয়ে গেছে, যেমন বস্তুর আকার, ওভারল্যাপযুক্ত বস্তুর মধ্যে স্থানিক সম্পর্ক ইত্যাদি।

আমরা কিছু উদাহরণ দেখাই যে অঞ্চল-ভিত্তিক চাক্ষুষ বৈশিষ্ট্যগুলি ভালভাবে পরিচালনা করতে পারে না আকার 1. ভিতরে উদাহরণ (A), অবজেক্ট ডিটেকশন মডেলের জন্য প্লেনের স্থিতি পাওয়া কঠিন। জন্য উদাহরণ (B), যদিও আমরা “মেয়ে” এবং “গ্রাউন্ড” সনাক্ত করতে পারি যেহেতু তাদের অঞ্চলগুলির মধ্যে ওভারল্যাপ রয়েছে, এটি আরও কঠিন হবে ফিউশন এমবেডিং মডেলের জন্য তাদের আবদ্ধ বাক্সের কারণে প্রকৃত স্থানিক সম্পর্ক বিচার করা। একইভাবে ইন উদাহরণ (C)শুধুমাত্র “জিরাফ” এর চাক্ষুষ বৈশিষ্ট্য সহ, প্রাণীদের অবস্থা অনুমান করা কঠিন।

চিত্র 2. Pixel-BERT

Pixel-BERT: মডেলটিতে একটি ভিজ্যুয়াল বৈশিষ্ট্য এমবেডিং মডিউল, একটি বাক্য বৈশিষ্ট্য এমবেডিং মডিউল এবং একটি ক্রস-মডালিটি অ্যালাইনমেন্ট মডিউল রয়েছে। Pixel-BERT ইনপুট হিসাবে ইমেজ-বাক্য জোড়া নেয় এবং প্রতিটি ইনপুট উপাদানের মনোযোগ বৈশিষ্ট্য আউটপুট করে। ইমেজ একটি পিক্সেল বৈশিষ্ট্য এম্বেডিং মডিউল পিক্সেল পিক্সেল দ্বারা পাস করা হয় এবং বাক্য একটি বাক্য বৈশিষ্ট্য এমবেডিং মডিউল টোকেন দ্বারা টোকেন মধ্যে খাওয়ানো হয়. মডেলটি এমএলএম এবং আইটিএম কাজগুলির দ্বারা প্রাক-প্রশিক্ষিত হতে পারে এবং নমনীয়ভাবে ডাউনস্ট্রিম কাজগুলিতে প্রয়োগ করা যেতে পারে (যেমন ভিকিউএ, পুনরুদ্ধার ইত্যাদি)।

বাক্য বৈশিষ্ট্য এমবেডিং

একটি বাক্যকে ইনপুট হিসাবে দেওয়া হলে, আমরা প্রথমে এটিকে শব্দের ক্রমানুসারে বিভক্ত করি এবং ব্যবহার করি ওয়ার্ডপিস প্রতিটি শব্দকে টোকেনে পরিণত করতে। তারপরে আমরা প্রতিটি টোকেনকে একটি ভেক্টরে এম্বেড করার জন্য একটি এমবেডিং ম্যাট্রিক্স গ্রহণ করি। এখানে আমরা w = {w1, w2, …, wn} ∈ R ব্যবহার করি এমবেডেড সিকোয়েন্সের প্রতিনিধিত্ব করতে, যেখানে n সিকোয়েন্সের দৈর্ঘ্য নির্দেশ করে এবং d হল এমবেডিং ডাইমেনশন।

যেখানে i অবস্থানে pi এম্বেডিং ভেক্টর নির্দেশ করে, sw হল একটি শব্দার্থিক এম্বেডিং ভেক্টর এবং LayerNorm হল একটি স্বাভাবিককরণ ফাংশন।

ইমেজ ফিচার এমবেডিং

একটি ইনপুট ইমেজ I দেওয়া হয়েছে, আমরা প্রথমে CNN ব্যাকবোন ব্যবহার করি এর বৈশিষ্ট্য বের করতে, তারপর বৈশিষ্ট্যটিকে স্থানিক মাত্রা বরাবর সমতল করি। আমরা সমতল বৈশিষ্ট্যটিকে v = {v1, v2, …, vk} ∈ R হিসাবে চিহ্নিত করি, যেখানে k বৈশিষ্ট্য পিক্সেলের সংখ্যা নির্দেশ করে। ভিজ্যুয়াল এম্বেডিং বৈশিষ্ট্য {vˆ1, vˆ2, …, vˆk} দ্বারা গণনা করা যেতে পারে

যেখানে sv একটি শব্দার্থিক এম্বেডিং ভেক্টর ভাষা এমবেডিংয়ের সাথে পার্থক্যকে আলাদা করতে। যেহেতু সমস্ত পিক্সেল একই sv ভাগ করে, তাই এই এমবেডিং ভেক্টরটিকে সিএনএন ব্যাকবোনের সাথে একত্রিত করার জন্য একটি পক্ষপাতমূলক শব্দ হিসাবে বিবেচনা করা যেতে পারে।

ক্রস-মোডালিটি মডিউল

বাক্য এমবেডিং ভেক্টর এবং পিক্সেল বৈশিষ্ট্যগুলি পাওয়ার পরে, আমরা ইনপুট ক্রম তৈরি করতে সমস্ত ভেক্টরকে একত্রিত করি। আমরা দুটি বিশেষ টোকেন যোগ করেছি [CLS] এবং [SEP] যৌথ শ্রেণীবিভাগের বৈশিষ্ট্য শেখার জন্য এবং যথাক্রমে টোকেন দৈর্ঘ্য নির্দিষ্ট করার জন্য। জয়েন্ট-লার্নিং ট্রান্সফরমারের চূড়ান্ত ইনপুট সিকোয়েন্সটি এভাবে প্রণয়ন করা হয়

পিক্সেল-বিইআরটি ভাষা এবং পিক্সেল জুড়ে ক্রস-মডালিটি মনোযোগের মাধ্যমে ভিজ্যুয়াল উপস্থাপনা ভালভাবে শিখতে পারে কিনা তা আরও পরীক্ষা করার জন্য, নীচে উদাহরণগুলিতে মনোযোগ মানচিত্রের কিছু মধ্যবর্তী ফলাফল রয়েছে।

চিত্র 3: পিক্সেল-বিইআরটি-এর প্রথম ট্রান্সফরমার স্তর থেকে প্রাপ্ত মনোযোগ অঞ্চলগুলির ভিজ্যুয়ালাইজেশন। ক্যোয়ারী হিসাবে নির্দিষ্ট টোকেন এবং কী হিসাবে পিক্সেল বৈশিষ্ট্যগুলি ব্যবহার করে মনোযোগ অঞ্চলগুলি বের করা হয়। হাইলাইট এলাকাগুলি উচ্চ মনোযোগ স্কোর সহ অঞ্চলগুলি নির্দেশ করে।

ভিজ্যুয়ালাইজেশন ফলাফল পাওয়া যাবে চিত্র 3. এর ফলাফল থেকে মামলা (A), আমরা দেখতে পাচ্ছি যে টোকেন “কুকুর”, “ঘাস” এবং “ফ্রিসবি” এর প্রতিক্রিয়া ক্ষেত্রগুলি আসলে সঠিক অঞ্চলে বিতরণ করা হয়েছে। জন্য মামলা (বি), আমরা দেখতে পারি যে যদিও “কাটিং” একটি ক্রিয়া, এটি সবচেয়ে সম্পর্কিত অঞ্চলে উপস্থিত হতে পারে যেখানে একটি ছুরি দিয়ে “কাটিং” এর কাজ করা হয়। থেকে মামলা (C)আমরা দেখতে পাই যে টোকেন “রুম” চিত্রের সঠিক অঞ্চলে উপস্থিত হতে পারে৷

দৃষ্টি-ভাষা কাজের জন্য প্রাক-প্রশিক্ষিত মডেল, যেমন ভিলবার্ট, ভিএল-বার্ট, এবং ইউনিটার, সমৃদ্ধ ভিজ্যুয়াল তথ্য উপেক্ষা করুন, যেমন বৈশিষ্ট্য এবং বস্তুর মধ্যে সম্পর্ক। প্রাসঙ্গিক সংকেতের মতো তথ্য ছাড়া, ভিজ্যুয়াল গ্রাউন্ডিংয়ে অস্পষ্টতার মূল চ্যালেঞ্জটি সমাধান করা কঠিন। ভিজ্যুয়াল দৃশ্য গ্রাফ উপরের চ্যালেঞ্জগুলি মোকাবেলা করার জন্য দৃষ্টি-ভাষা শব্দার্থকে সারিবদ্ধ করার সেতু হিসাবে। আধুনিক দৃশ্য গ্রাফ জেনারেটর ব্যবহার করে চিত্র থেকে ভিজ্যুয়াল দৃশ্যের গ্রাফ বের করা হয়েছে, একটি চাক্ষুষ দৃশ্য গ্রাফ কার্যকরভাবে গুরুত্বপূর্ণ বস্তু এবং তাদের সম্পর্ককে চিত্রিত করে।

সামফর্মার (অর্থাৎ সারিবদ্ধ মাল্টি-মডাল ট্রান্সফরমার) টেক্সট, ইমেজ এবং গ্রাফিকাল স্ট্রাকচারের পদ্ধতির মধ্যে সারিবদ্ধতা শেখে। দৃশ্য গ্রাফে প্রতিটি বস্তু-সম্পর্কের লেবেলের জন্য, মডেলটি সহজেই প্রাকৃতিক ভাষায় উল্লেখ করা পাঠ্য অংশগুলি খুঁজে পেতে পারে এবং তারপরে দৃশ্য গ্রাফের সাথে ইতিমধ্যেই যুক্ত চিত্র অঞ্চলগুলির সাথে সারিবদ্ধ করতে শিখতে পারে।

চিত্র 4: একটি ভিজ্যুয়াল প্রশ্ন-উত্তর উদাহরণ ক্রস-মোডাল প্রান্তিককরণের জন্য সেতু হিসাবে একটি দৃশ্য গ্রাফ ব্যবহার করার কার্যকারিতা চিত্রিত করে।

একটি ইমেজ-টেক্সট পেয়ার (I, w) দেওয়া হয়েছে, আমরা প্রথমে একটি দৃশ্য গ্রাফ জেনারেটর দিয়ে চিত্র থেকে ভিজ্যুয়াল দৃশ্য গ্রাফ G বের করি। একটি দৃশ্য গ্রাফ হল একটি নির্দেশিত গ্রাফ যা নোডগুলিকে প্রতিনিধিত্ব করে এবং প্রান্তগুলি তাদের জোড়াভিত্তিক সম্পর্ককে চিত্রিত করে। আমরা প্রথমে একটি প্রাক-প্রশিক্ষিত BERT এম্বেডারের সাহায্যে টেক্সট সিকোয়েন্স w এবং সিন গ্রাফ ট্রিপলেট উভয়েই টোকেন এম্বেড করি। তারপরে আমরা দ্রুত R-CNN এর সাথে প্রতিটি চিত্র অঞ্চলের ভিজ্যুয়াল এম্বেডিং এবং প্রতিটি ট্রিপলেটের ইউনিয়ন অঞ্চল বের করি।

চিত্র 5: স্যামফর্মারের আর্কিটেকচার।

সমস্ত এমবেডিং ভেক্টরকে তারপরে একটি ট্রান্সফরমার নেটওয়ার্কে খাওয়ানো হয় স্ব-মনোযোগ ব্যবস্থা সহ সারিবদ্ধকরণ অনুমান করার জন্য, চিত্র 5 এ দেখানো হয়েছে।

চিত্র 6: দ্রুত আর-সিএনএন

এখানে, আমি ফাস্ট আর-সিএনএন আর্কিটেকচার প্রদান করেছি, যা একটি আঞ্চলিক-ভিত্তিক অবজেক্ট ডিটেক্টর যা উপরের অ্যালগরিদম দ্বারা ব্যবহৃত হয়। ফাস্টার R-CNN আর্কিটেকচারে RPN একটি অঞ্চল প্রস্তাবনা অ্যালগরিদম এবং ফাস্ট R-CNN একটি ডিটেক্টর নেটওয়ার্ক হিসাবে রয়েছে। ফাস্ট আর-সিএনএন সম্পর্কিত গভীর আলোচনা আমাদের আলোচ্যসূচির বাইরে, তাই, চবা আরো তথ্য এখানে যান.

আমরা ভিজ্যুয়াল এমবেডিং পদ্ধতি নিয়ে আলোচনা করি যা সাধারণত বিদ্যমান কাজে ব্যবহৃত হয় এবং অঞ্চল-ভিত্তিক ভিজ্যুয়াল প্রতিনিধিত্বের সীমাবদ্ধতা সমাধান করার লক্ষ্য রাখি। আমরা একটি CNN-ভিত্তিক ভিজ্যুয়াল এনকোডারও দেখেছি এবং এটিকে মাল্টি-মডেল ট্রান্সফরমারের সাথে একত্রিত করেছি যাতে পিক্সেল-বিইআরটি এন্ড-টু-এন্ড পদ্ধতিতে তৈরি করা যায় এবং পিক্সেল এবং টেক্সট স্তরে ভিজ্যুয়াল এবং ভাষাগত বিষয়বস্তুর মধ্যে আরও সঠিক এবং আরও পুঙ্খানুপুঙ্খভাবে এম্বেডিং তৈরি করা যায়। . Samformer, দৃষ্টি-ভাষা প্রাক-প্রশিক্ষণের জন্য একটি অভিনব শব্দার্থিক সারিবদ্ধ মাল্টি-মডাল ট্রান্সফরমার মডেল। আমরা দৃশ্যমান এম্বেডিংয়ের সাথে ট্রিপলেট ট্যাগ ব্যবহার করে ভিজ্যুয়াল দৃশ্যের গ্রাফ এবং পাঠ্যকে স্পষ্টভাবে সারিবদ্ধ করি।

[1]Pixel-BERT: গভীর মাল্টি-মোডাল ট্রান্সফরমার দ্বারা পাঠ্যের সাথে চিত্র পিক্সেল সারিবদ্ধ করা: https://arxiv.org/pdf/2004.00849.pdf

[2]দৃষ্টি-ভাষা বোঝার জন্য শব্দার্থিক সারিবদ্ধ মাল্টি-মডেল ট্রান্সফরমার: ভিজ্যুয়াল QA-এর উপর একটি প্রাথমিক অধ্যয়ন: https://aclanthology.org/2021.maiworkshop-1.11.pdf

[3]বস্তু সনাক্তকরণের জন্য দ্রুত R-CNN: https://towardsdatascience.com/faster-r-cnn-for-object-detection-a-technical-summary-474c5b857b46

[4]কথোপকথনমূলক প্রশ্ন উত্তর সিস্টেমের প্রাথমিক অন্তর্দৃষ্টি (CQA): https://medium.com/@ardeshnabhavik/basic-intuition-of-conversational-question-answering-systems-cqa-cf79bb5fa1d6

[5]নিম্ন-সম্পদ ভাষার জন্য প্রশ্নের উত্তরের কর্মক্ষমতা উন্নত করতে ইংরেজি ডেটার সুবিধা নিতে ক্যাসকেডিং অ্যাডাপ্টার: https://arxiv.org/abs/2112.09866

Leave a Reply

Your email address will not be published.