এএমআই রেসিডেন্সি পর্ব 1: শব্দ (স্পেস) স্পেস এক্সপ্লোর করা, শব্দকে বোঝানো, মানব পক্ষপাত বনাম শিখেছি।

মহিলাদের যোনি আছে, পুরুষদের নাকের নাকের ছিদ্র রয়েছে

বিগত কয়েক বছরে আমি যে গবেষণা করেছি তার বিষয়ে নিবন্ধের একটি সিরিজের [১, ২, ৩] এটি দ্বিতীয়, যা আমি কেবল লেখার মতোই করছি। মে / জুন ২০১ In সালে আমি গুগলের শিল্পী ও মেশিন গোয়েন্দা প্রোগ্রামের বাসিন্দা ছিলাম। আমি পৃথক আউটপুট সহ কয়েকটি সম্পর্কিত বিষয় অনুসন্ধান করেছি। সুতরাং আমি দুটি পোস্টে এটি সম্পর্কে লিখতে হবে। এটি তাদের মধ্যে প্রথম।

এই পোস্টের সাথে সম্পর্কিত লিঙ্কগুলি: - @ ওয়ার্ডফমথ, @ ওয়ার্ডফ্যামথবিয়াস, @ অ্যালাস্টোমিনস্পায়ার - পাইথন এবং অফ / সি ++ এসসিআর https://github.com/memo/ofxMSAWord2Vec - (এই নিবন্ধের সাথে কোনও কাগজ যুক্ত নেই)

ভূমিকা

সুপ্ত স্থান অন্বেষণ করা খুব আকর্ষণীয় জিনিস হতে পারে। আমি আগে এখানে গভীরতা সম্পর্কে এটি লিখেছে। খুব দীর্ঘ গল্পের সংক্ষিপ্ত কাটাতে, একটি সুপ্ত স্থানটিকে একটি উচ্চ মাত্রিক স্থান হিসাবে ভাবা যেতে পারে যেখানে একক পয়েন্ট একটি উপাত্তের উপাত্ত, বা নমুনা উপস্থাপন করে। সর্বাধিক গুরুত্বপূর্ণ, আমরা এই সুপ্ত স্থানটি নির্মাণের চেষ্টা করতে পারি যে আদর্শভাবে এটি কিছু ধরণের অর্থবহ, শব্দার্থক সম্পর্কগুলি ধারণ করে, উদাহরণস্বরূপ যাতে আমরা পয়েন্টগুলিতে জ্যামিতিক ক্রিয়াকলাপগুলি তাদের রূপান্তর করতে পারি, বা নির্দিষ্ট দিকগুলিতে অর্থবহভাবে ডেটা ম্যানিপুলেট করার লক্ষ্যে যেতে পারি, যেমন মুখে চশমা যুক্ত করতে, বা মুখের হাসি তৈরি করা ইত্যাদি

মেশিন লার্নিংয়ের (এমএল) কিছু দিকগুলি শেখার ফাংশন হিসাবে বিবেচনা করা যেতে পারে যা আমাদের ইনপুট এবং আউটপুট ডোমেনগুলি (যেমন কাঁচা পিক্সেল) থেকে এইরকম সুপ্ত স্পেসে ম্যাপ করে। এবং গভীর নিউরাল নেটওয়ার্কের মাধ্যমে ডেটা পাইপিংয়ের বিষয়টি একাধিক মাত্রা এবং স্থান (এবং সময়) এর রূপান্তরগুলির মধ্য দিয়ে যাত্রা হিসাবে ভাবা যেতে পারে।

শব্দ এম্বেডিং

শব্দ এম্বেডিংস (বা শব্দ ভেক্টর) শব্দগুলির ক্ষেত্রে প্রয়োগ করা একটি অনুরূপ ধারণা। যে কোনও একটি ভাষার শব্দভাণ্ডার নিতে পারে (যেমন ২০,০০০ শব্দ, ৫০,০০০ শব্দ, ১০,০০,০০০ শব্দ ইত্যাদি) এবং এগুলিকে উচ্চতর মাত্রিক স্থানের বিন্দু হিসাবে প্লট করতে পারে।

কয়েকটি প্রতিষ্ঠিত অ্যালগরিদম রয়েছে যা এটি করে, উল্লেখযোগ্যভাবে ওয়ার্ড 2 ভেক এবং গ্লোভ এটি বেশ ভাল করে। এগুলি অ্যালগরিদমগুলি শিখছে যা পাঠ্যগুলির একটি বিশাল কর্পাস (উদাহরণস্বরূপ 100 বিলিয়ন শব্দ) এর মধ্য দিয়ে যায় এবং তারা শব্দগুলি কীভাবে উচ্চ মাত্রিক স্থানে (যেমন 300 ডি) অবস্থিত করতে শেখে যে শব্দের মধ্যে জটিল, অর্থবহ, স্থানিক সম্পর্ক রয়েছে। কেবল যে শব্দগুলি অর্থের সাথে সম্পর্কিত সেগুলি একে অপরের নিকটবর্তী নয়, তবে যে দিকগুলি এবং দূরত্বগুলিতে তারা সংগঠিত হয় তার অর্থ কিছুটা।

মিকোলভ, টি।, করারাডো, জি।, চেন, কে।, এবং ডিন, জে (2013)। ভেক্টর স্পেসে শব্দ উপস্থাপনার দক্ষতা নির্ধারণ। উপস্থাপনা শেখার আন্তর্জাতিক সম্মেলনের কার্যক্রম (আইসিএলআর 2013)

এবং তাই আমরা শব্দগুলিতে গণিতের অপারেশনগুলি বিখ্যাতভাবে করতে পারি। আপনি বাম চিত্রটিতে দেখতে পারেন যে 'কিং' থেকে 'কুইন' শব্দটির ভেক্টর 'পুরুষ' থেকে 'মহিলা' পর্যন্ত ভেক্টরটির সাথে খুব মিল (এনবি এটি মূল 300 ডি সুপ্ত স্থান থেকে 3 ডি, ভিজ্যুয়ালাইজেশনের উদ্দেশ্যে 2D তে)। বা বাস্তবে 'পুরুষ' থেকে 'রাজা' পর্যন্ত ভেক্টর 'মহিলা' থেকে 'রানী' পর্যন্ত ভেক্টরটির সাথে খুব মিল। সুতরাং আমরা প্রকৃতপক্ষে 'পুরুষ' থেকে 'রাজা' (অর্থাৎ 'রাজা' - 'পুরুষ') থেকে 'মহিলার' জন্য ভেক্টর যুক্ত করতে পারি এবং আমরা এই 300 ডি সুপ্ত স্পেসে একটি নতুন পয়েন্ট দিয়ে শেষ করতে পারি। আমরা যদি এই মুহুর্তের নিকটতম শব্দটির সন্ধান করি তবে আমরা দেখতে পাবো যে এটি 'রানী' (আসলে এটি পুরোপুরি সঠিক নয়, আরও পরে এটি)।

শব্দ সাদৃশ্য

আমরা এটি বিখ্যাত ওয়ার্ড টু ওয়েভ উদাহরণ হিসাবে লিখতে পারি: রাজা - পুরুষ + মহিলা => রানী

এটি ওয়ার্ড সাদৃশ্য হিসাবেও পরিচিত, এবং প্রায়শই বাক্যটিতে লেখা হয়: পুরুষ: রাজা :: মহিলা: [রানী] (পড়ুন: "পুরুষ যেমন রাজা হন তেমনি মহিলা?" এবং মডেলটি 'রানী' ফেরায়)

একইভাবে, 'হাঁটাচলা' থেকে 'হাঁটাচলা' পর্যন্ত ভেক্টরটি 'সাঁতার' থেকে 'সাঁতার' পর্যন্ত ভেক্টরের সাথে খুব মিল। মডেলটিও টেনেসগুলি শিখবে বলে মনে হয়। দেশ-মূলধন সম্পর্কগুলি যেমন, 'স্পেন' থেকে 'মাদ্রিদ' এবং 'ইতালি' থেকে 'রোম' ইত্যাদির সাথে ভেক্টরগুলির তুলনা করুন etc.

সবচেয়ে গুরুত্বপূর্ণভাবে, এই সম্পর্কগুলি স্পষ্টভাবে প্রশিক্ষণের সময় মানুষ প্রয়োগ করে না। তারা প্রশিক্ষণ কর্পাস থেকে একটি নিরীক্ষণ পদ্ধতিতে শিখেছে। শিক্ষার অ্যালগরিদম পাঠ্যের মাধ্যমে পুনরাবৃত্তি করে এবং বাক্য এবং বাক্যাংশগুলিতে শব্দগুলি কীভাবে সাজানো হয় তার নিদর্শনগুলি তুলে ধরে এবং এটি থেকে ভেক্টরকে কীভাবে নির্ধারিত করা উচিত তা নির্ধারণ করে।

এও মনে রাখবেন যে উপরের চিত্রগুলি 3 ডি স্পেসে প্রক্ষেপণ (2 ডি স্পেসে প্রজেক্ট করা), যাতে আমরা সেগুলি দেখতে পারি। বাস্তবে এই সুপ্ত স্পেসটি 300 ডি, তাই এটি এমন অনেক বেশি সম্পর্ককে দিশেহারা করে যা আমরা কল্পনাও করতে পারি না। এবং এটি কী শিখেন কে জানে।

তাই আমি এই স্থানটি অন্বেষণ করতে কয়েকটি টুইটার বট লিখেছি।

@WordOfMath

এই বট এলোমেলো শব্দের উপর র্যান্ডম গাণিতিক ক্রিয়াকলাপ সম্পাদন করে এবং ফলাফলগুলি টুইট করে।

এটি প্রথমে ১০০ কে শব্দের সংক্ষিপ্ত শব্দ থেকে ২ থেকে ৪ টি সম্পূর্ণ এলোমেলো শব্দের বাছাই করে (প্রকৃতপক্ষে এটি 53 কে শব্দ, কারণগুলিতে উত্সটিতে ব্যাখ্যা করা হয়েছে Note নোট করুন যে অনুমান করা হয়েছে যে শিক্ষিত নেটিভ ইংরেজী ভাষাগুলি প্রায় 20K-30K শব্দের শব্দভাণ্ডার রয়েছে)) বট এই শব্দগুলিকে একটি উচ্চ মাত্রিক সুপ্ত স্থানে চালিত করে (গুগল সংবাদের 100 বিলিয়ন শব্দের উপর মিকোলভ এট আল দ্বারা প্রশিক্ষিত বিখ্যাত ওয়ার্ড 2 বেভ মডেল ব্যবহার করে) words এরপরে এই ভেক্টরগুলিতে এলোমেলো গাণিতিক ক্রিয়া (সংযোজন বা বিয়োগ) সম্পাদন করে) এটি উচ্চ মাত্রিক স্থানে একটি নতুন অবস্থানে ফলাফল করে। বটটি তারপরে নিকটতম শব্দগুলি দেয়।

https://twitter.com/wordofmath

অর্থাত্ 'মানব' - ''শ্বর' = 'প্রাণী' অর্থ বটটি এলোমেলোভাবে 'মানব' এবং 'godশ্বর' শব্দটি বেছে নিয়েছে এবং এলোমেলোভাবে একটি বিয়োগফল করার সিদ্ধান্ত নিয়েছে। এটি 'মানব' এর জন্য ভেক্টর থেকে ''শ্বর' এর জন্য ভেক্টরকে বিয়োগ করে, এবং সেই স্থানে নিকটতম শব্দটি খুঁজে পায় এবং টুইট করে, এই ক্ষেত্রে 'প্রাণী' (এটি শীর্ষে পাঁচটি নিকটতম শব্দকে টুইট করে, এখানে আমি কিছু হাত-বাছাই করেছি) আমার প্রিয় ফলাফল)।

উপরে আপনি কিছু সম্পূর্ণ জেনুইন, অবকাঠামোগত ফলাফল দেখতে পাচ্ছেন। তবে আমার উল্লেখ করা উচিত যে শত শত ফলাফল রয়েছে (হাজার হাজার নয়?), এবং আমি আমার কয়েকটি প্রিয় চেরি-বাছাই করেছি। (আমি প্রকৃতপক্ষে তাদের সকলের মধ্যে পুঙ্খানুপুঙ্খভাবে নজর রাখিনি, আরও অনেক আকর্ষণীয় বিষয় হতে পারে)।

প্রথমদিকে আমি কুরআউট করছিলাম এবং বটটি কোন শব্দটি বেছে নেবে সে সম্পর্কে নিয়ম আরোপের চেষ্টা করছিলাম, যাতে ফলাফল আরও 'বুদ্ধিমান' এবং আকর্ষণীয় হয়। তবে এটি করার সময়, আমি বুঝতে পেরেছিলাম যে আমি আসলে আরও বেশি 'সৃজনশীল' (এবং যুক্তিসঙ্গতভাবে আরও আকর্ষণীয়, বা অপ্রত্যাশিত) ফলাফলগুলি খুঁজে পাওয়ার বটের ক্ষমতা সীমাবদ্ধ করছি। সুতরাং আমি আরোপিত যে কোনও প্রতিবন্ধকতা আমি সরিয়ে দিয়েছি এবং বটটি আরও অনেক অবাধে স্থানটি আবিষ্কার করতে দিন। এটি এখন এমন ফলাফল তৈরি করে যা প্রায়শই বেশি অযৌক্তিক হয় এবং কখনও কখনও তা বোঝা শক্ত হয়ে যায়।

এবং প্রকৃতপক্ষে এটিই এই প্রকল্পটির সমাপ্তি ঘটে।

এটি মডেল আমাদের যা বলে তা নয়, তবে আমরা কীসের সন্ধান করি এবং ফলাফলটিতে কী দেখি।

টুইটারে প্রচুর উদাহরণ পাওয়া যাবে। নীচে কয়েকটি নির্বাচন করেছি few প্রথম কয়েকটি কয়েকটি উদাহরণ সম্ভবত ব্যাখ্যা করা বেশ সহজ।

মানব - =শ্বর = প্রাণী

এটি একটি আকর্ষণীয়। এটি ব্যাখ্যা করা যেতে পারে: "যদি আমরা godশ্বরের উপর / বিশ্বাস না রাখি তবে আমরা আদিম প্রাণীদের স্তরে নেমে যাব" বা বিকল্পভাবে: "যা মানুষকে অন্য প্রাণী থেকে পৃথক করে তোলে, তা কি আমরা godশ্বরের প্রতিচ্ছবিতে তৈরি হয়েছিল? "। বা হতে পারে: "মানুষ কেবল প্রাণী, যা religionsশ্বরের প্রতি ধর্ম এবং বিশ্বাস আবিষ্কার করেছে" ইত্যাদি।

এটি ব্যাখ্যা করার অন্যান্য অনেকগুলি উপায় রয়েছে এবং আমি আরও কিছু ধারণা শুনতে আগ্রহী। তবে সত্যটি হ'ল, আমি মনে করি না যে এর অর্থ এইগুলির কোনও একটি means কারণ এর পিছনে কেউ নেই, বলছে, এটিকে কোনও অর্থ দেবে। এটি কেবল একটি শব্দ, একটি ফিল্টার দ্বারা আকারযুক্ত এবং তারপরে আমরা এটিতে যা চাই তা প্রজেক্ট করি। সচেতনভাবে বা অচেতনভাবে আমরা যা চাই তা রূপদানের এটি কেবলমাত্র একটি সূচনালগ্ন।

কেউ কেউ দ্বিমত পোষণ করতে পারে এবং বলতে পারে যে মডেলটি এর উপরে প্রশিক্ষিত পাঠ্যের বিশাল কর্পাস থেকে শিখেছে এবং মডেলটি উত্পাদিত এই শৈল্পিকটি কর্পাসে এমবেড হওয়া অর্থ বহন করে। এটি অবশ্যই কিছুটা ডিগ্রির সাথে সত্য, এবং এর আগে দেওয়া উদাহরণগুলির সাথে যাচাই করা যেতে পারে যেমন কিং-ম্যান + মহিলা = রানী, বা হাঁটা-হাঁটা + সোয়াম = সাঁতার। নিশ্চয়ই এটি কোনও কাকতালীয় ঘটনা নয় যে মডেলগুলি সেই ক্ষেত্রে এরকম অর্থপূর্ণ ফলাফল ফিরিয়ে দিচ্ছে?

দেখে মনে হচ্ছে মডেল কিছু শিখেছে। তবে আমরা যখন মডেলের সীমানা ঠেকানো শুরু করি, তখন আমাদের মস্তিষ্কের ছবিটির বাকি অংশ সম্পূর্ণ করে, 'অর্ধ-এলোমেলো' ফলাফলগুলি কী হতে পারে মডেল কী শিখেছে সে সম্পর্কে সিদ্ধান্তে ঝাঁপিয়ে দেওয়ার প্রলোভনটিকে প্রতিহত করা সবচেয়ে ভাল it's । আমি প্রস্তাব দিচ্ছি না যে মডেলটি কখন বোধ করা বন্ধ করে দেয় এবং এলোমেলো ফলাফল উত্পন্ন করতে শুরু করে সে সম্পর্কে একটি কাট-অফ পয়েন্ট রয়েছে। এটি একটি বর্ণালী আরও। মডেলটি যতটা 'আরামদায়ক' তার থেকে যত বেশি দূরে চলে যান (যেমন প্রশিক্ষণের সময় প্রচুর পরিমাণে দেখেছেন, শিখেছেন এবং সাধারণীকরণে সক্ষম হয়েছেন), তত বেশি তাত্পর্য শব্দ আউটপুটে বহন করে (যেমন কম সংকেত-শব্দের অনুপাত) , এবং আমাদের পক্ষপাতদুষ্ট ব্যাখ্যাগুলির জন্য সম্ভাব্যতর উর্বর আউটপুট।

আমি আরও পরে এই আরও প্রসারিত করব। তবে প্রথমে আরও কয়েকটি উদাহরণ।

প্রকৃতি - =শ্বর = গতিশীল

আমি বিশেষত এটি পছন্দ করি। আমি এটিকে "দেবতার প্রয়োজন ছাড়াই প্রকৃতি কেবল পদার্থবিজ্ঞানের নিয়ম" হিসাবে ব্যাখ্যা করি।

টুইটার + বট = মেমস

আমি এটি দেখে বিশ্বাস করতে পারিনি। এটি প্রায় কোনও ব্যাখ্যা প্রয়োজন। "টুইটারে বটগুলি মেমস হয়ে যায়"। সত্য হতে পারে খুব ভাল.

লিঙ্গ - প্রেম = সহবাস, হস্তমৈথুন, বেশ্যাবৃত্তি, ধর্ষণ

এটি একটি শক্তিশালী। আমি এটিকে "প্রেম ব্যতীত যৌনতা কেবল সহবাস" বা "পতিতাবৃত্তি প্রেম ব্যতীত যৌনতা" বা "ধর্ষণের সাথে লিঙ্গ এবং ঘৃণা জড়িত (প্রেমের বিপরীত হিসাবে)" হিসাবে ব্যাখ্যা করি। এই ফলাফলগুলি খুব আকর্ষণীয়। তবে আবারও, ধরে নেওয়া উচিত নয় যে মডেল প্রশিক্ষণের ডেটা থেকে এই বিশেষ ব্যাখ্যাটি শিখছে। বেশিরভাগ সাদৃশ্যতে, এই সমস্ত শব্দ 'লিঙ্ক' এবং / বা 'প্রেম' এর আশেপাশের কোথাও রয়েছে, কারণ এগুলি সমস্ত সম্পর্কিত শব্দ। এবং হ্যাঁ সম্ভবত এই শব্দগুলি 'ভালবাসা' বা 'সেক্স' এর একটি নির্দিষ্ট দিক নির্দেশ করে। তবে মহাকাশে প্রচুর শব্দের একগুচ্ছ শব্দের মধ্যে পার্থক্য রয়েছে এবং "প্রেম ব্যতীত যৌন মিলন হচ্ছে যৌন মিলন বা পতিতাবৃত্তি…"। দ্বিতীয়টি স্থানিক বিন্যাসের আমার ব্যাখ্যা।

কর্তৃপক্ষ - দর্শন = পুলিশ, সরকার

এটিকে বোঝার জন্য আমাকে আমার সৃজনশীলতাকে ধাক্কা দিতে হবে। আমি নিজেকে জিজ্ঞাসা করি “যদি আমরা দর্শনের বিষয়টিকে ভাবনাকে যৌক্তিক এবং সমালোচনা করার কাজ বলে মনে করি; তাহলে সম্ভবত এই বাক্যটি বলে যে পুলিশ এবং সরকারগুলি এমন কর্তৃপক্ষ যা মনে করে না, এবং যৌক্তিক নয়? " বা অন্য কথায়, "কী ধরণের কর্তৃপক্ষের সমালোচনামূলক চিন্তাভাবনার অভাব রয়েছে? পুলিশ ও সরকার ”।

দাড়ি - ন্যায্য - স্থান + মতবাদ = ধর্মতত্ত্ব, প্রচারক

এটি আমার সৃজনশীলতার সীমা আরও এগিয়ে দেয়। তবে আমি চেষ্টা করার পরেও অর্থ খুঁজে পেতে পারি। উদাহরণস্বরূপ ধরে নেওয়া যাক যে দাড়ি traditionতিহ্যগতভাবে এবং স্টেরিও-সাধারণত জ্ঞানের পরিচয় দেয়। একটি দাড়ি কল্পনা করুন, এটি ন্যায়সঙ্গত নয় - অর্থাৎ এটি জ্ঞানের বোঝার ভান করে, তবে বাস্তবে তা হয় না। প্রকৃতপক্ষে, এই নির্দিষ্ট দাড়ি স্থানকেও প্রতিস্থাপন করে (যা আমি উদারভাবে 'মহাবিশ্ব', 'জ্ঞান', 'বিজ্ঞান' উপস্থাপন করে) মতবাদ দিয়ে। আমরা এমন দাড়িটি কোথায় খুঁজে পাব, যে জ্ঞানী হওয়ার ভান করে, কিন্তু বিজ্ঞানের পরিবর্তে মতবাদ দিয়ে? অবশ্যই ধর্মতত্ত্ব হিসাবে, যেমন একটি প্রচারক।

অবশ্যই এটি আমি একটি বৃত্তাকার খাঁজটিকে একটি বৃত্তাকার ছিদ্রের সাথে ফিট করার জন্য বেশ চেষ্টা করছি, মডেলটির ফাঁকে দেওয়া এই 'আধা-এলোমেলো' বাক্যটি বোঝার চেষ্টা করছি। আমি এই ব্যাখ্যাটি কীভাবে বেছে নিয়েছি তার ঠিক বিপরীত কেউ যদি এই বাক্যটির ব্যাখ্যা করতে সক্ষম হয় তবে আমি অবাক হব না।

গোলমাল উপর অর্থ প্রজেক্টিং

তবুও, আমি এই ফলাফলগুলি অন্তহীনভাবে আকর্ষণীয় মনে করি। মডেলটির ইংরাজী ভাষার এত দৃ understanding় ধারণা আছে বলে নয়, কারণ এটি এক ধরণের 'অর্থ ফিল্টার' হিসাবে কাজ করে।

মডেলটিতে যা যায় তা সম্পূর্ণরূপে এলোমেলো (যেমন বট পছন্দ করে এমন শব্দ এবং গাণিতিক ক্রিয়াকলাপ)। বা আমার ভাষার সাথে আরও কিছুটা সুনির্দিষ্ট হওয়ার জন্য, এটিকে অভিন্ন বিতরণ, সাদা গোলমাল সহ শব্দ হিসাবে মনে করুন।

আপনার চারপাশের গল্পটি বোঝার এবং লেখার জন্য এখানে সম্ভবত খুব বেশি উপাদান নেই? এটি অনেকটা ফাঁকা স্লেট।

মডেলটি তখন কার্যকরভাবে সেই শব্দের জন্য একটি ফিল্টার প্রয়োগ করে, এটি বাঁকায়, আকার দেয় এবং একটি নতুন ধরণের শব্দ আসে।

https://en.wikipedia.org/wiki/File:Rorschach_blot_01.jpg

আরও সাধারণ শর্তে, আমি এই সুপ্ত স্পেসগুলি বিভিন্ন ডোমেনের জন্য ররসচ্যাচ-স্টাইলের ইঙ্কব্লট তৈরির উপায় হিসাবে দেখি, যেমন শব্দ, চিত্র, শব্দ, পাঠ্য ইত্যাদি। এলোমেলো সংখ্যা বা প্রক্রিয়া (অর্থাত্ সাদা শব্দ) মডেলটিতে চলে যায় এবং আরও 'কাঠামোগত এলোমেলো 'ফলাফল প্রকাশিত হয়। এটি এখনও 'এলোমেলো', তবে আরও নির্দিষ্ট বিতরণ, আরও কাঠামো সহ। আমাদের জন্য কাঠামো পর্যাপ্ত রয়েছে যাতে জিনিসগুলিতে জিনিস দেখতে পারা যায় এবং প্রকল্পটির অর্থ meaning

এবং আমরা মেশিনগুলি যা কাঠামোর জন্য আকাঙ্ক্ষিত, এবং আমরা সেগুলিতে অর্থ প্রজেক্ট করি। কারণ এটাই আমরা করি। আমরা সবসময়ই এটি করেছি। এটি কীভাবে আমরা বন্যের মধ্যে বেঁচে থাকি, একে অপরের সাথে কীভাবে সম্পর্কযুক্ত তা। আমরা গল্প উদ্ভাবন করি, আমরা স্টাফ আপ করি এবং তাদের বিশ্বাস করি। আমরা নিয়মিততাগুলি সন্ধান করি এবং আমরা কে এবং আমরা কী জানি তার উপর ভিত্তি করে আমরা সেগুলির মধ্যে অর্থ প্রজেক্ট করি।

আমি এখনই লিখছি বা পড়ি বা শুনি, এই বাক্যগুলি যা এই মুহুর্তে লিখছি, আপনি আপনার নিজের পূর্ববর্তী অভিজ্ঞতাগুলির সাথে সম্পর্কিত হয়ে আপনার পূর্বের বিশ্বাস এবং জ্ঞানের দ্বারা ফিল্টার করে বোঝার চেষ্টা করছেন।

কখনও কখনও - যেমন এই পৃষ্ঠায় এই শব্দের ক্ষেত্রে - তর্কসাপেক্ষভাবে সেখানে একটি নিদর্শন অর্থ শিল্পে এম্বেড করা আছে। এটি আমার মত কোনও লেখকের দ্বারা আরোপিত একটি অর্থ, যা শৈল্পিকের প্রযোজক - একটি ভাগ করা ভাষা, যোগাযোগের পদ্ধতি এবং প্রসঙ্গে (যেমন লাতিন বর্ণমালা, ইংরেজি ভাষা ইত্যাদি) ব্যবহার করে এম্বেড করা হয়েছে। এই ক্ষেত্রে, আশা করি আপনি এম্বেড হওয়া অর্থটি যেমনটি আমি ইচ্ছা করেছিলাম তা ব্যাখ্যা করব। আপনি এটি একটি প্রারম্ভিক পয়েন্ট হিসাবে ব্যবহার করবেন এবং তারপরে আপনি নিজের মধ্যে থাকা বিশ্বাসের সাথে মিলিত হয়ে আপনি এমন একটি বার্তা নেবেন যা আশা করি আমার উদ্দেশ্যযুক্ত অর্থের সাথে কিছুটা প্রসারিত হবে। তবে অবশ্যই তা নয়, অস্পষ্ট যোগাযোগের কারণে মতবিরোধে ফেলা খুব সহজ। শুধু রিচার্ড ডকিন্সকে জিজ্ঞাসা করুন।

তবে আমরা এখনও এমন জায়গাগুলিতে অর্থ সন্ধান করতে পরিচালিত করি যেখানে সর্বদা উদ্দেশ্যযুক্ত, এম্বেড হওয়া অর্থ হয় না বা আসলে কোনও লেখকই শুরু করে না। যেমন আমরা যখন মেঘে মুখগুলি দেখি বা টোস্টে পবিত্র লোকেরা। বা এমনকি বিশ্বের বিভিন্ন সংস্কৃতি দ্বারা উদ্ভাবিত বিভিন্ন কল্পকাহিনী এবং গল্পগুলির মতো, রাতের আকাশকে সাজানোর উজ্জ্বল বিন্দুগুলি দেখার দিকে।

গত বছর যখন প্রথম প্রকাশিত হয়েছিল তখন ডিপড্রিম সম্পর্কে আমি এটিই পছন্দ করি। এটি ট্রিপ্পি কুকুরছানা-স্লাগস এবং বার্ড-টিকটিকি তৈরি করে না। তবে এটি শব্দটি নিয়েছিল এবং এটিকে যথেষ্ট পরিমাণে বিকৃত করে দিয়েছিল যাতে আমরা এটির অর্থ প্রকাশ করতে শুরু করি, কুকুরছানা জাতীয়, স্লাগ-জাতীয়, পাখির মতো বৈশিষ্ট্যগুলি সনাক্ত এবং ব্যাখ্যা করতে - ঠিক যেমনটি অ্যালগরিদম করেছিল।

আমি চিন্তার এই ট্রেনের প্রসঙ্গে ডিপড্রিমিতে একটি দীর্ঘ পোস্ট লিখেছি (এখানে), এবং প্রাসঙ্গিক বিটের একটি সংক্ষিপ্তসার নিম্নরূপ:

আমরা যখন এই ডিপড্রিম উত্পাদিত চিত্রগুলি দেখি তখন আমরা বলি "ওহ এটি কুকুরছানা বা স্লাগ বা পাখির টিকটিকি"। কিন্তু আসলে, এরকম কোনও জিনিস নেই। এই চিত্রগুলিতে কোনও পাখি বা টিকটিকি বা কুকুরছানা বা স্লাগ নেই। এখানে কেবল পাখি রয়েছে - * যেমন *, কুকুরছানা - * পছন্দ *, স্লাগ- * মত * বৈশিষ্ট্য। কৃত্রিম নিউরাল নেটওয়ার্কটি অস্পষ্টভাবে মূল চিত্রের সেই বৈশিষ্ট্যগুলিকে স্বীকৃতি দেয়, সংশ্লিষ্ট কৃত্রিম নিউরনের আগুন, তবে দুর্বলভাবে এবং কোথাও সুপ্ত স্থানে। ডিপড্রিম অ্যালগরিদম সেই সমস্ত গুলি আরও প্রশস্ত করতে চিত্রগুলিকে পরিবর্তন করে। এবং তারপরে * আমরা এই চিত্রগুলি দেখি এবং আমাদের মস্তিস্কের নির্দিষ্ট ক্রিয়াকলাপগুলি সেই একই পাখির মতো, কুকুরছানা-জাতীয়, স্লাগ-জাতীয় বৈশিষ্ট্যগুলি নিবন্ধভুক্ত করে। তবে এখনও এখানে কোনও পাখি বা কুকুরছানা নেই। * আমরা * নির্দিষ্ট অর্থ বিতরণ সহ প্রয়োজনীয় শব্দগুলি কীসের দিকে সেই অর্থগুলি আবার প্রজেক্ট করে সেই স্বীকৃতি প্রক্রিয়াটি সম্পন্ন করি। এবং আমি যুক্তি দিয়েছি এটি সত্যই আমাদের পুরো অস্তিত্বের মূল: শব্দটির নির্দিষ্ট বন্টনকে বোঝায়।

বনাম মানব পক্ষপাত শিখেছি

আমি যখন এই অন্বেষণগুলি চালাচ্ছিলাম প্রায় একই সময়ে, মডেলদের দ্বারা শেখানো সামাজিক পক্ষপাতদুষ্ট গবেষণাগুলি সর্বজনীন করা হয়েছিল [1, 2]।

বাবা: ডাক্তার :: মা: [নার্স]

বিশেষত, একটি ফলাফল ব্যাপকভাবে ভাগ করা হয়েছিল এবং শিরোনাম হয়েছিল। যখন "চিকিত্সক-পিতা + মা" উপস্থাপন করা হয় (অর্থাত্ "বাবা যেমন মা হচ্ছেন তেমনি চিকিত্সকের কাছে?") মডেলটি সম্ভবত 'নার্স' ফিরিয়ে দেয়। যদি সত্য হয়, এটি মডেলটিতে দৃ gender় লিঙ্গ পক্ষপাতের খুব স্পষ্ট প্রমাণ, প্রশিক্ষণ ডেটা থেকে শিখেছে (এই ক্ষেত্রে, গুগল নিউজের 100 বিলিয়ন শব্দ)।

দুর্ভাগ্যক্রমে, এটি সম্পূর্ণ সঠিক নয়।

বাস্তবে, আমরা যখন "কিং-ম্যান + মহিলা" এর মতো কোনও অপারেশন করি তখন শেষ পয়েন্টের নিকটতম শব্দটি সর্বদা 'রানী' হয় না। এটি সম্ভবত 'রাজা' হওয়ার সম্ভাবনা রয়েছে। প্রকৃতপক্ষে, উপরের সমস্ত ক্রিয়াকলাপে, সাধারণত নিকটতম শব্দটি মূল শব্দগুলির মধ্যে একটি হয় যা ইনপুট ক্যোয়ারিতে ছিল (অর্থাত রাজা, পুরুষ বা মহিলা)। সুতরাং যখন আমরা এই ক্রিয়াকলাপগুলি সম্পাদন করি, তখন আমরা মডেলটি যে ফলাফলগুলি আসে তার ফলাফলগুলি থেকে ইনপুট শব্দগুলি ম্যানুয়ালি মুছে ফেলি (অর্থাত্ ফিল্টার আউট, উপেক্ষা) "ডাক্তার-পিতা + মা" এর ক্ষেত্রে মডেল আসলে 'ডাক্তার' কে নিকটতম শব্দ হিসাবে প্রত্যাবর্তন করে এবং 'নার্স' দ্বিতীয় নিকটতম হিসাবে থাকে। প্রকৃতপক্ষে মডেলের শীর্ষ পাঁচটি শব্দ হলেন চিকিৎসক, নার্স, চিকিৎসক, চিকিত্সক, ডেন্টিস্ট (আপনি এখানে চেষ্টা করে দেখতে পারেন)।

কাগজপত্রের লেখক স্পষ্টভাবে বলে দিয়েছেন যে "[শব্দ এম্বেডিংস] তাদের উপর প্রশিক্ষিত ডেটাসেটের অন্তর্নিহিত লুকানো পক্ষপাতিত্ব প্রদর্শন করে ... এবং পক্ষপাতদুষ্ট সমাধানগুলি ফিরিয়ে দেয় ... যেমন বাবা: ডাক্তার :: মা: নার্স"। উভয় গবেষণাপত্র জুড়েই এই অনুভূতিটি বহুবার প্রকাশিত হয় এবং বাস্তবে শিখে নেওয়া পক্ষপাতই গবেষণার ভিত্তি।

যদিও বাস্তবে, মডেল এই লিঙ্গ পক্ষপাতটি শিখেনি। মডেল মডেলের শীর্ষ ফলাফলটি প্রকৃতপক্ষে 'ডাক্তার', তবে সেই ফলাফলটিকে উপেক্ষা করা হয় এবং 'নার্স' (২ য় শীর্ষ ফলাফল) পত্রিকায় মডেলের শীর্ষ আউটপুট হিসাবে রিপোর্ট করা হয়। এটি হয় একেবারে মিথ্যা (যা আমি অত্যন্ত সন্দেহ করি), বা কাগজের লেখকদের পক্ষ থেকে একটি মানব ব্যবহারকারীর ত্রুটি (যা আরও সম্ভাব্য)। আমি আশা করি এবং আমি মনে করি যে এটি একটি নিরীহ ভুল, এবং লেখকরা সরাসরি মডেলটির সাথে সরাসরি কাজ করছেন না, তবে তারা মডেলটিতে একটি তৃতীয় পক্ষের ইন্টারফেস ব্যবহার করছেন। এই তৃতীয় পক্ষের ইন্টারফেসটি ফিল্টারিং করছে, এবং সম্ভবত লেখকরা এটি সম্পর্কে অবগত নন (উদাহরণস্বরূপ এখানে মডেলটির একটি অপরিচ্ছন্ন অনলাইন ইন্টারফেস রয়েছে, এবং এখানে একটি ফিল্টার করা অনলাইন ইন্টারফেস রয়েছে - ইংলিশ গুগল নিউজ মডেলটি নির্বাচন করুন, বিকল্প হিসাবে, আমি সরাসরি মডেলটির সাথে খেলতে এখানে পাইথন এবং সি ++ কোড রয়েছে)।

তবুও, এই গবেষণাটি সংবাদ এবং সোশ্যাল মিডিয়ায় ভাইরাল হয়েছিল এবং এমআইটি প্রযুক্তি পর্যালোচনার মতো জায়গাগুলি সহ - বিশেষত এই নির্দিষ্ট ফলাফলটি ব্যাপকভাবে ভাগ হয়েছিল। এর একটি মজার দিকটি হ'ল জাল সংবাদ আসলে একটি বড় সমস্যা হলেও আমরা 'বুদ্ধিজীবী সমালোচক চিন্তাবিদরা' সাধারণত এটিকে 'অন্য পক্ষের' - দ্য ডেইলি মেইল, ব্রেইটবার্ট এবং ফেসবুকে আল-রাইটের সাথে যুক্ত করতে চাই (এখন আরও পূর্বের তুলনায় সাময়িক)। তাহলে এমআইটি প্রযুক্তি পর্যালোচনা কেন 'জাল নিউজ' বলছে? সবাই কেন এটি টুইটার এবং ফেসবুকে শেয়ার করছে? লোকেরা কি মেশিন লার্নিং মডেলগুলিতে পক্ষপাত এবং অন্যায়ের পক্ষে খুঁজছেন না যারা সমালোচকদের চিন্তাভাবনা করবেন ?, 'ভাল ছেলেরা'?

এটি অন্য পোস্টের জন্য একটি বড় বিষয়, তবে এটি নিম্নলিখিত প্রকল্পের অনুপ্রেরণা তাই আমি এটিকে সংক্ষেপে স্পর্শ করব।

মনে হয় ফলাফলের ব্যাখ্যায় মানুষের পক্ষপাতটি পরীক্ষা বা মডেলটিতে থাকা কোনও পক্ষপাতের চেয়ে শক্তিশালী হতে পারে। এবং কেউ এর থেকে প্রতিরোধী নয় (অবশ্যই আমাকে সহ, যা এই নিবন্ধের দৃষ্টিকোণে সহজাত হবে)।

দেখে মনে হচ্ছে যে এই কাগজগুলির লেখকরা শব্দ 2 বেইক মডেলটিতে পক্ষপাত খুঁজে পেতে চেয়েছিলেন তাই তারা কীভাবে বা কেন এই ফলাফলগুলি পাচ্ছে তা নিয়ে সত্যই প্রশ্ন না করে did দেখে মনে হচ্ছে এমআইটি প্রযুক্তি পর্যালোচনা ভাষা মডেলটির প্রতি পক্ষপাতিত্বের রিপোর্ট করতে চেয়েছিল, তাই তারা গবেষণার প্রশ্ন না করেই করেছিল। সর্বোপরি, তাদের কেন এটি প্রশ্ন করা উচিত? ফলাফল ছিল একটি কাগজে! (এনবি। আর্কসিভ সম্পর্কিত একটি কাগজ পিয়ার-পর্যালোচনা করা হয় না, সেখানে যে কেউ পোস্ট করতে পারে এবং এর কোনও কর্তৃত্ব থাকতে হবে না। এবং একটি কর্মশালায় একটি কাগজ একটি সম্মেলন বা জার্নাল হিসাবে তদন্তের একই স্তরের হাতে রাখা হয় না)।

এটি দেখে মনে হচ্ছে যে যারা এই নিবন্ধগুলি টুইটার এবং ফেসবুকে ভাগ করেছেন তারা এমএল মডেলগুলিতে জ্ঞাত লিঙ্গ পক্ষপাত সম্পর্কে গল্পগুলি ভাগ করতে চেয়েছিলেন, তাই তারা কী করেছিল, কেন তারা এমআইটি প্রযুক্তি পর্যালোচনা নিয়ে প্রশ্ন করবে? বা বোস্টন বিশ্ববিদ্যালয়, বা মাইক্রোসফ্ট গবেষণা গবেষণা?

এবং সবচেয়ে গুরুত্বপূর্ণভাবে, গবেষণাপত্রগুলিতে যে প্রশ্নগুলি করা হচ্ছে তা গুরুত্বপূর্ণ প্রশ্ন এবং তাদের জিজ্ঞাসা করা উচিত এবং তাদের আলোচনা করা উচিত এবং আমি লেখকদের প্রশংসা করার জন্য প্রশংসা করি (বাস্তবে, পরবর্তী প্রকল্পটি যদি তাদের না হয় তবে এমনটি ঘটত না - এবং তারা কাগজপত্রগুলিতে অন্যান্য অনেক অধ্যয়ন সম্পাদন করুন যা খুব কার্যকর।

তা সত্ত্বেও, আমি এটি আকর্ষণীয় মনে করি যে কীভাবে আমরা আমাদের প্রহরীকে হালকা করে দিতে পারি, এবং আমাদের মিত্রদের - গল্প, বিবরণী এবং প্রমাণাদি সম্পর্কে কম সমালোচিত হতে পারি - যখন সেগুলি আমাদের সমর্থন ও বিশ্বাসের কারণগুলির সাথে একত্রিত হয় তখন এটি প্রায় মনে হয় আমরা ইচ্ছুক সমালোচনামূলক মূল্যায়নের জন্য আমাদের মানদণ্ড শিথিল করার জন্য, এবং যদি এটি 'ভাল কারণের' জন্য হয় তবে কিছুটা সত্যকে পূর্বাভাস দেওয়া (এটি আমার চিন্তায় অনেকটা সামনে আসে এবং আমি এখানে এ সম্পর্কে একটি সংক্ষিপ্ত উদাহরণ দিয়ে সংক্ষেপে এখানে লিখেছিলাম) )।

আমি প্রস্তাব দিচ্ছি না যে মডেলটিতে শিখার পক্ষপাতিত্ব নেই। আসলে মডেলটিতে কোনও সন্দেহবিহীন পক্ষপাতিত্ব নেই, একটি মডেলটিতে প্রায় সর্বদা পক্ষপাত হয়, এজন্যই পরিসংখ্যানের ক্ষেত্রটি জন্মগ্রহণের সাথেই জন্মগ্রহণ করেছিল! (অর্থাত্ এই পক্ষপাতিত্ব অধ্যয়ন, এবং চেষ্টা এবং কমানোর জন্য - আমি এখানে মেশিন এবং পরিসংখ্যান পক্ষপাতের একটি সংক্ষিপ্ত ইতিহাস সম্পর্কে লিখেছি)।

এটি কেবল "ডাক্তার-পিতা + মা = নার্স" এই ক্ষেত্রে এটির উদাহরণ নয়। যদি কিছু হয় তবে এটি ফলাফল ব্যাখ্যা, রিপোর্টিং এবং ভাগ করে নেওয়ার ক্ষেত্রে মানুষের পক্ষপাতিত্বের প্রমাণ।

সুতরাং আমি কীভাবে মডেলটিতে লিঙ্গ পক্ষপাত অন্বেষণ করতে পারি সে সম্পর্কে ভাবতে শুরু করি।

@WordOfMathBias

https://twitter.com/wordofmathbias

আমি এই মুহুর্ত পর্যন্ত যা কিছু বলেছি - শব্দের অর্থ বোঝানো, এবং বনাম মানব পক্ষপাত শিখেছি - এই টুইটার বটের জন্য অনুপ্রেরণা ছিল।

এই বটটি আগেরটির মতোই, তবে এটি সামাজিক বায়াসগুলি (বিশেষত লিঙ্গ) অন্বেষণ সম্পর্কে আরও বেশি যা মডেলটি প্রশিক্ষণের ডেটা থেকে শিখতে পারে। এটি 'পুরুষ' এবং 'মহিলা' এর সাথে এলোমেলো শব্দের উপমাগুলি অনুসন্ধান করে এবং সেগুলি উভয়ভাবে চালায়।

অর্থহীন যদি, "মানুষ: ডাক্তার :: মহিলা:?" ডাক্তারকে ফিরিয়ে দেয়, যা খুব আকর্ষণীয় নয়, আমরা মডেল বা ডেটা সম্পর্কে খুব বেশি অন্তর্দৃষ্টি অর্জন করি না। যদি ফিল্টার করা হয়, আমরা নার্স পাই, যা আকর্ষণীয় তবে এটি নিজে থেকে খুব বেশি কিছু বলে না। উদাহরণস্বরূপ, "মহিলা ডাক্তার যেমন পুরুষ নার্স হয়" দাবি করে মডেল হিসাবে এটি ব্যাখ্যা করা যায় না (পূর্ববর্তী বিভাগটি দেখুন)।

তবে, আমরা যদি 'পুরুষ' এবং 'মহিলা' বিপরীত করি এবং "মহিলা: ডাক্তার :: পুরুষ:?" এবং ফলাফলগুলি ফিল্টার করে আমরা 'চিকিত্সক' পাই। এখন এটি আকর্ষণীয় এবং আমি যে মডেলটিকে মনে করি তার উপর আরও আলোকপাত করে। যদিও "পুরুষ: ডাক্তার" এবং "মহিলা: ডাক্তার" উভয়ের পক্ষে শীর্ষ (অনাবৃত) ফলাফল এখনও 'ডাক্তার', মহিলার ক্ষেত্রে দ্বিতীয় শীর্ষ ফলাফলটি 'নার্স', যখন পুরুষের জন্য দ্বিতীয় শীর্ষ ফলাফলটি 'চিকিত্সক'। এটি স্পষ্টভাবে একটি পক্ষপাত যা মডেলটিতে এমবেড করা হয়েছে, প্রশিক্ষণ ডেটা থেকে শিখেছি। আমি ভাবছি সেখানে আর কী আছে?

সুতরাং এই বট শব্দটি এম্বেডিংগুলি এই পদ্ধতিতে আবিষ্কার করে। এটি একটি সম্পূর্ণ এলোমেলো শব্দ বাছাই করে, 'পুরুষ' থেকে ভেক্টরটিকে 'শব্দের সাথে' শব্দটিতে যুক্ত করে ফলাফলগুলি ফেরত দেয়। এটি 'মহিলা' থেকে ভ্যাক্টরটিকে সেই শব্দটিতে 'পুরুষ' যুক্ত করে এবং ফলাফলগুলি ফেরত দেয়। উভয় ক্ষেত্রে এটি শীর্ষ চারটি ফলাফল প্রদান করে এবং স্থান বাঁচাতে ইনপুট কোয়েরি শব্দগুলি ফিল্টার করে।

এটি খুব বেশি বৈজ্ঞানিক নয়, নৈমিত্তিক অনুসন্ধানেরও বেশি। তবে প্রকৃতপক্ষে, পাশাপাশি মডেলটিতে শিখে নেওয়া পক্ষপাত অন্বেষণ করার পাশাপাশি এটি আমাদের ব্যাখ্যাগুলিতে মানব পক্ষপাতও অন্বেষণ করে। ঠিক যেমন @ ওয়ার্ডোফ্যামথ বট এর ক্ষেত্রে, আমরা কীভাবে ফলাফলগুলিতে অর্থ বোঝানোর চেষ্টা করি তা দেখতে আকর্ষণীয় মনে হয়। যেহেতু বটটি সত্যিকারের এলোমেলো শব্দটি তোলে (যেমন সাদা শব্দ, অভিন্ন বিতরণ), ফলাফলগুলি ব্যাখ্যা করা বেশিরভাগ সময়ই শক্ত। এবং আগের মতো, আমরা এই কাঠামোগত শব্দ থেকে আমরা কী পড়তে চাই তা পড়ি।

যেমন

যদি এলোমেলো শব্দটি 'অনুরোধ' হয় তবে কোনও মহিলা 'সম্মতি' দেয় বা 'দাবি' করে, যখন কোনও পুরুষ 'নির্দেশ' দেয়, বা 'সম্মত' হয়। এটি কি আমি বা মনে হচ্ছে লোকটির কথায় ইতিবাচক অভিব্যক্তি রয়েছে? প্রশিক্ষণ ডেটা সম্পর্কে কি কিছু বলে? নাকি আমি এর মধ্যে খুব বেশি পড়ছি? এটি কি মডেল সম্পর্কে কিছু বলে? অথবা এটি আমার সম্পর্কে এবং আমার ভাবনার উপায় সম্পর্কে আরও বেশি কিছু বলে? আমি আজকের তুলনায় 10 বছর আগে এই ফলাফলগুলি কীভাবে ব্যাখ্যা করব? আমি তাদের 10 বছরের মধ্যে কীভাবে ব্যাখ্যা করব?

এলোমেলো শব্দটি যদি 'পছন্দ' হয় তবে কোনও মহিলা 'উপাসনা' বা 'উপভোগ' করেন, যখন কোনও পুরুষ 'স্বস্তি' দেয় বা 'জানে'। কীভাবে একজন মহিলা 'উপভোগ করেন' যখন একজন পুরুষ 'জানেন'? তার মানে কি কিছু? অথবা এটি ভাসমান-পয়েন্ট গোলাকার ত্রুটির কারণে হওয়ার মতো অপ্রয়োজনীয় হতে পারে?

এলোমেলো শব্দটি যদি 'চরিত্রগুলি' হয় তবে মহিলা হলেন 'নায়িকা' বা 'অভিনেত্রী' এবং পুরুষ 'ভিলেন' বা 'দানব'।

এলোমেলো শব্দটি যদি 'গাড়ি' হয় তবে কেবলমাত্র শব্দটি ভিন্ন যা মহিলার জন্য 'সেলান' এবং পুরুষের জন্য 'ভ্যান'। আমার ধারণা, নারীর চেয়ে পুরুষ ভ্যান চালকরা বেশি পাওয়া যায়। এটা কি কাকতালীয় ঘটনা? নাকি মডেলটি আসলে এটি শিখেছে?

এটি খুব আকর্ষণীয়, যদি এলোমেলো শব্দটি 'চিবানো' হয় তবে কেবল ভিন্ন শব্দটি মহিলাদের জন্য 'খাওয়া' এবং পুরুষের জন্য 'গাবল্ড'। ব্যক্তিগতভাবে বলতে গেলে, 'গব্বলড' হ'ল আমি কীভাবে খাই তার একটি দুর্দান্ত নির্ভুল বর্ণনা। তবে আমি জানি না আমি এই মুহুর্তে এটি খুব বেশি পড়ছি কিনা।

মহিলারা 'অ্যাডভোকেসি' বা 'দাতব্য' প্রতিষ্ঠানের সাথে যুক্ত হওয়ার সম্ভাবনা বেশি, অন্যদিকে পুরুষরা 'দল' বা 'ক্লাব' এর সাথে যুক্ত হওয়ার সম্ভাবনা বেশি থাকে। আবার, এটি বিশ্বাসযোগ্য মনে হয়।

মহিলাদের সম্পর্কিত 'সামাজিক' ইস্যুগুলির মধ্যে রয়েছে 'লিঙ্গ', 'মা', 'কল্যাণ', পুরুষদের ক্ষেত্রে এটি 'সমাজতাত্ত্বিক', 'যুবক' এবং 'বুদ্ধিজীবী'।

'চোখের পাতা' এর প্রতিক্রিয়া হিসাবে, মহিলাদের 'যোনি' এবং 'গাল' রয়েছে, যখন পুরুষদের 'নাসিকা' এবং 'কপাল' রয়েছে।

অবশেষে,

নারীকে 'টব' বা 'ট্রে' করতে হয়, যেমন মানুষ 'বালতি' বা 'কোলান্ডার' করতে হয়। এর অর্থ বা বোঝানো কী? আমি নিশ্চিত যে এটি "দাড়ি-ন্যায়সঙ্গত-স্থান + মতবাদ = ধর্মতত্ত্ব, প্রচারক" উদাহরণ দিয়ে যেমন করা হয়েছিল, তবে তারা এটির দিকে মনোনিবেশ করে তবে কোনও এটি প্রবন্ধের সূচনা পয়েন্ট হিসাবে ব্যবহার করতে পারে sure

মডেলটি আপনাকে যে প্রশ্নটি জিজ্ঞাসা করবে তা যত হাস্যকর বিষয় নয়, তার ফলাফল ফিরিয়ে দেবে। আবার আমি আমার প্রিয় একটি উক্তি মনে করিয়ে দিচ্ছি (যা আমি পরিসংখ্যানগত পক্ষপাতিত্বের ইতিহাসে আমার পোস্টেও অন্তর্ভুক্ত করেছি):

[ব্যাবেজের গণনা মেশিনে] “দু'বার আমাকে [সংসদ সদস্যদের] জিজ্ঞাসা করা হয়েছে,
'প্রার্থনা করুন, মিঃ ব্যাবেজ, আপনি যদি মেশিনে ভুল পরিসংখ্যান রাখেন, তাহলে সঠিক উত্তরগুলি বেরিয়ে আসবে?'
আমি এই ধরণের প্রশ্নকে উত্সাহিত করতে পারে এমন ধারণার বিভ্রান্তি ধরতে যথাযথভাবে পারছি না। " - চার্লস ব্যাবেজ (1791–1871), "দার্শনিকের জীবন থেকে প্যাসেজগুলি", 1864

এতে কোনও সন্দেহ নেই যে শব্দ এম্বেডিংগুলি প্রকৃতপক্ষে উচ্চ মাত্রায় শব্দগুলিকে এমনভাবে স্থিত করতে শেখে যে কোনওরকম অর্থবহ সম্পর্ককে ধারণ করতে পারে। এর মধ্যে প্রশিক্ষণের ডেটা এম্বেড করা বায়াসেস অন্তর্ভুক্ত থাকবে। এবং এই জাতীয় মডেলগুলি সমালোচনামূলক সিদ্ধান্ত নেওয়ার জন্য ব্যবহার করার সময়, এই জাতীয় পক্ষপাতদুষ্ট কারণে যে কোনও বৈষম্য ঘটে তার খুব নেতিবাচক পরিণতি হওয়ার সম্ভাবনা রয়েছে, বিশেষত যারা ইতিমধ্যে একরকম অসুবিধায় রয়েছেন।

তবে এর সাথে মিশে প্রায়শই এই আউটপুটগুলি 'এলোমেলো' এবং 'কাঠামোগত' এর মধ্যে এত সূক্ষ্মভাবে অবস্থান করে যে কখনও কখনও তাদের পিছনে আসলে কোনও অর্থ রয়েছে কিনা তা জানতে খুব অসুবিধা হয়, অর্থাত্ মডেলটিতে থাকা বায়াসগুলি হয়, বা আমরা ফলাফলের ব্যাখ্যায় আমাদের নিজস্ব পক্ষপাতিত্ব প্রকাশ করে আমরা যা দেখতে চাই তা কেবল প্রজেক্ট করছি। কখনও কখনও কোনও মডেলের আউটপুটটিতে খুব বেশি অর্থ উপস্থাপন করা কিছুটা টোস্টের টুকরোতে যিশুর মুখ দেখার মতো হতে পারে এবং বিশ্বাস করা যায় যে এটি fromশ্বরের বার্তা।

এবং কিছু ক্ষেত্রে এটি সর্বদা খারাপ জিনিস নয়। আমি ধারণাটি আকর্ষণীয় মনে করি, এমএল মডেল এবং সুপ্ত স্পেসগুলি অর্থ-ফিল্টার হিসাবে ব্যবহার করতে, আমাদের নিজস্ব পক্ষপাত এবং ধারণাগুলি জিজ্ঞাসাবাদ করতে - শব্দের অভিন্ন বিতরণ (অর্থাত্ সম্পূর্ণরূপে এলোমেলো অর্থাত সাদা শোরগোল) নিতে এবং এগুলিকে কিছুটা আরও কাঠামোগত শব্দে বাঁকানো বিভিন্ন বিভিন্ন ডোমেনের জন্য প্যারামেট্রিক রর্স্যাচ ইঙ্কব্লট জেনারেটরের মতো।

এবং তারপরে আমরা উত্পাদিত নিদর্শনগুলিকে প্রারম্ভিক পয়েন্ট হিসাবে ব্যবহার করতে পারি, আমাদের কল্পনায় ফুলের বীজ হিসাবে, আমরা জিনিসগুলিকে দেখতে পাই, প্রকল্পের অর্থ বোঝাতে পারি, গল্প তৈরি করি এবং চারপাশে বিবরণ উদ্ভাবন করি, যেমন লক্ষ লক্ষ বছর ধরে আমরা করেছি done

বিশেষ দ্রষ্টব্য। অবশ্যই "আওয়াজকে বোঝাতে" এবং অন্যান্য স্ব-পরিবেশনকারী পক্ষপাতিত্বের এই ধারণাগুলি অবশ্যই মেশিন লার্নিং মডেলগুলির ফলাফলগুলি ব্যাখ্যা করার মতো, তর্কসাপেক্ষভাবে জ্ঞানের সমস্ত দিক এবং বাস্তবে জীবনের - এমনকি চরম সামাজিক এবং রাজনৈতিক মেরুকরণের কিছু কিছু সহ আমরাও বুঝতে পারি না go আজ দেখা হচ্ছে। আমি নিঃসন্দেহে অদূর ভবিষ্যতে এই থিমগুলিতে আরও কাজ করব।

আসলে, যখনই আমি এই শব্দটির কথা ভাবি "এর অর্থ কী?" আমি সাহায্য করতে পারছি না যোসাইমাইটেবার 62২ এর ডাবল রেইনবো ভিডিও এবং এই দুর্দান্ত ঘটনার অর্থ প্রকাশের জন্য তাঁর প্রচেষ্টা:

এবং তার ব্যাখ্যার শেষ 30 সেকেন্ডে আরও উদাহরণস্বরূপ:

প্রাপ্তি স্বীকার

আমার পিএইচডি অংশ হিসাবে এই ক্ষেত্রে আমার চলমান গবেষণা ছাড়াও, এই কাজটি গুগলের শিল্পী ও মেশিন গোয়েন্দা প্রোগ্রামের একটি রেসিডেন্সির দ্বারা সমর্থিত ছিল। সেই দক্ষতায় আমি কেনারিক ম্যাকডোয়েল, মাইক টাইকা, আন্দ্রে হেল্ড, ব্লেইস আগুয়ারা ওয়াই আর্কাস এবং আরও অনেককে সমর্থন, অনুপ্রেরণামূলক কথোপকথন এবং পরামর্শের জন্য ধন্যবাদ জানাতে চাই। আমি এখানে যে কাজ এবং ধারণাগুলির কথা বলি তা অন্য অনেকের দ্বারা অনুপ্রাণিত হয়েছিল, তবে আমি অ্যালিসন প্যারিশ এবং রস গুডউইনকে একটি বিশেষ চিৎকার দিতে চাই।