তিন সেকেন্ডে কণ্ঠ নকল করতে পারে কৃত্রিম বুদ্ধিমত্তা

প্রবা প্রতিবেদন

প্রকাশ : ১৭ জানুয়ারি ২০২৩ ১৬:১৪ পিএম

আপডেট : ১৭ জানুয়ারি ২০২৩ ১৬:২৭ পিএম

এনকোডেক থেকে শেখা শব্দভান্ডার ও কণ্ঠস্বর কাজে লাগিয়ে একজন ব্যক্তি কীভাবে শব্দ করে তা বিশ্লেষণ করে এবং সেই তথ্যকে পৃথক উপাদানে ভাগ করে ‘ভ্যাল-ই’। ছবি : সংগৃহীত

কৃত্রিম বুদ্ধিমত্তা, বিগ ডেটা ও মেশিন লার্নিং প্রযুক্তি দ্রুত বদলে দিচ্ছে বিশ্বকে। মানুষের কন্ঠস্বর ও অঙ্গভঙ্গি নকলের প্রযুক্তি ডিপ ফেকের সঙ্গে আমরা অনেকেই পরিচিত। এবার মাইক্রোসফট জানিয়েছে, তারা এমন এক কৃত্রিম বুদ্ধিমত্তা নিয়ে এসেছে, যা কেবল ৩ সেকেন্ডের অডিও শুনে কণ্ঠ নকল করতে পারে।

‘নিউরাল কোডেক ল্যাংগুয়েজ’-এর মতো জটিল কাঠামোতে তৈরি হলেও মাইক্রোসফটের আনা ‘ভ্যাল-ই’ নামের কৃত্রিম বুদ্ধিমত্তার ব্যবহারটা আবার বেশ সহজ। শুধু টেক্সট ও অডিও ইনপুট দিতে পারলেই হয়।

প্রোগ্রামটির নির্মাতারা আশা করছেন, এটি টেক্সট থেকে ভয়েস, স্পিচ এডিটিং ও অডিও কনটেন্ট তৈরির কাজে ব্যবহার করা যাবে। একই সঙ্গে এর নেতিবাচক ব্যবহারের আশঙ্কাও উড়িয়ে দেওয়া যায় না। কারণ কণ্ঠস্বর নকলের প্রযুক্তি সাইবার অপরাধীরাও ব্যবহার করতে পারে।

গত বছরের অক্টোবরে মেটা এনকোডেক নামের নতুন এক প্রোগ্রাম নিয়ে আসে। যেখানে তারা মানব কণ্ঠস্বর ও শব্দ ভান্ডারের বিশাল ডেটা জোগাড় করে। মাইক্রোসফট নতুন এআই বানাতে মেটার এসব ডেটাই মেশিন লার্নিং প্রযুক্তিতে ব্যবহার করেছে।

এনকোডেক থেকে শেখা শব্দভান্ডার ও কণ্ঠস্বর কাজে লাগিয়ে একজন ব্যক্তি কীভাবে শব্দ করে তা বিশ্লেষণ করে এবং সেই তথ্যকে পৃথক উপাদানে ভাগ করে ‘ভ্যাল-ই’। পরে সেই ডেটা ব্যবহার করে এটি বের করে যে এই ভয়েসে অন্য শব্দ বললে কেমন শোনাবে।

ভ্যাল-ইর কন্ঠস্বর বিশ্লেষণ ক্ষমতা মেটার জড়ো করা ৭ হাজারের বেশি মানুষের ৬০ হাজার ঘণ্টার স্পিচে প্রশিক্ষিত করা হয়েছে। একটি ভালো ফলাফলের জন্য মাত্র ৩ সেকেন্ডের ভয়েস ক্লিপের নমুনাই প্রদত্ত ডেটার সঙ্গে ঘনিষ্ঠভাবে মেলাতে পারে।

এমনকি অডিওতে থাকা অ্যাকোস্টিক পরিবেশও অনুকরণ করতে পারে। যেমন ফোনে একটি ভয়েস কেমন শোনাবে, তা অনুকরণ করা।

সূত্র : ভ্যাল-ই