Data Science এর ভবিষ্যৎ কি এবং কীভাবে শুরু করবো? PYTHON নাকি R, কি দিয়ে শুরু করবো?

data science and data analysis complete roadmap for beginners python vs r

Forbes এর একটা জরিপ মতে ২০৩০ সালের মধ্যে প্রায় ১৩টি জব সেক্টর পুরোপুরি স্বয়ংক্রিয় (Automated) হয়ে যাবে এবং World Economic Forum এর জরিপ থেকে ধারণা করা হয় অটোমেশন (Automation) এর কারণে প্রায় ৭৫ মিলিয়ন চাকরী ডিসপ্লেস হয়ে গেলেও মজার বিষয় হলো মোট প্রায় ১৩৩ মিলিয়ন নতুন চাকরী জেনারেট করবে। তবে অটোমেশন (Automation) এর কারণে কিছু নিম্ন এবং মধ্যম স্কিল এর জব অটোমেটেড(Automated) করা সম্ভব হলেও কখনোই ডাটা সায়েন্স (Data Science) এর চাকরী নস্ট করা সম্ভব নয়। অটোমেশন কেন ডেটা সায়েন্স এর জবগুলো নস্ট করতে পারবে না সেটা বুঝতে চাইলে ডেটা সায়েন্স কি এবং ডেটা সায়েন্স ইকোসিস্টেম কিভাবে কাজ করে।

তাহলে Data Science নিয়ে একটু ধারণা নেয়া উচিত। আমি যদি সবথেকে সহজ ভাষায় বলতে চাই তবে, ডেটা সায়েন্স হলো কয়েকটা বিষয় মিলে হাইব্রিড (Hybrid) একটা বিষয় এবং ডাটা সায়েন্স যেসব বিষয়কে ফোকাস করে গঠিত সেগুলা হলো – পরিসংখ্যান (Statistics), ফলিত গণিত (Applied Mathematics) এবং কম্পিউটার সায়েন্স (Computer Science)।
যেকোন চাকরীকে আমরা তখনি লুক্রেটিভ বলে থাকি যখন এর মার্কেট চাহিদা, জব স্যালারি, এবং ভবিষ্যত চাহিদা সবকিছুই অনেক ভালো থাকে। এবার তাহলে বুঝতে হবে ডেটা সায়েন্স বিষয়ক চাকরী বাজার কেমন? এটা সত্যি যে বর্তমান যুগের সবথেকে লুক্রেটিভ চাকরী গুলোর বেশিরভাগই ডেটা সায়েন্স এর ওপর ভিত্তি করে প্রতিষ্ঠিত। Glassdoor এর তথ্য অনুযায়ী আমেরিকায় একজন ডাটা সায়েন্টিস্ট তার অভিজ্ঞতা অনুসারে বছরে প্রায় $95k – $200k বেতন নিয়ে থাকেন। ডাটা সায়েন্স এর ওপর ভিত্তি করে যেসব জব পজিশন তৈরি হয়েছে যথাক্রমে – Machine Learning Engineer, Database Administrator, Data Architect, Data Engineer, Business Analyst, Data Analyst, Data Scientist, etc.

তাহলে বাংলাদেশে চাহিদা কেমন? হ্যা, এটা সত্য ডেটা সায়েন্স রিলেভ্যান্ট জবের চাহিদা বাংলাদেশেও অনেক। তবে বাংলাদের প্রযুক্তির উন্নয়নের সাথে সাথে এর চাহিদা বেড়েই চলছে এবং ভবিষ্যতে চাহিদা আরও বাড়বে। ডেটা সায়েন্স এর ব্যাবহার সব সেক্টরেরই রয়েছে যেমনঃ রিকমেন্ডেশন সিস্টেম, ওয়েদার প্রেডিকশন, ট্রেড মার্কেট এনালাইসিস, ডিজেস ডিটেকশন, স্পাম টেক্সট ক্লাসিফিকেশন, মার্কেট বাস্কেট এনালাইসিস ইত্যাদি গুরুত্বপূর্ণ কিছু উদাহরন। আমাদের অনেকের ধারনা যে ডেটা সায়েন্স এর জবগুলো শুধুমাত্র সফটওয়্যার ডেভেলপমেন্ট কোম্পানিগুলোতে। তবে এই ধারনাটি মোটেও সঠিক ধারনা নয়। বরং বাংলাদেশের অধিকাংশ প্রাইভেট কোম্পানিই তাদের বিজনেস গ্রোথ রেট ধরে রাখার জন্য বা বৃদ্ধি করার জন্য নতুন নতুন ডাটা সায়েন্স রিলেভ্যান্ট জব যেমন ডেটা এনালিস্ট, বিজনেস এনালিস্ট, ডেটাবেইস এডমিনিস্ট্রেটর, ডেটা সায়েন্টিস্ট নিয়োগ দিচ্ছেন।

আপনার হয়তো মনে প্রশ্ন জাগতে পারে বিজনেস গ্রোথ রেট বৃদ্ধি করার সাথে ডাটা সায়েন্স এর সম্পর্ক কি? হ্যা অবশ্যই আছে। আপনাকে একটা ছোট্ট উদাহরণ এর মাধ্যমে বিষয়টি পরিস্কার করছি, ধরুন আপনি একটি বই বিষয়ক ই-কমার্স ওয়েবসাইট তৈরি করেছেন। এই ই-কমার্স ওবেবসাইটে আপনার সেল বৃদ্ধি করতে, আপনি চাইলেই ডেটা সায়েন্স এর ব্যাবহার করতে পারেন। যেমন ধরুন কোন কাস্টমার প্রোগ্রামিং এর ওপরে একটা বই সার্চ করলো। তার মানে ওই কাস্টমার প্রোগ্রামিং এ আগ্রহী। আপনি এমনভাবে সিস্টেমটি ডেভলপ করেছেন যেন কাস্টমারের সার্চের ওপরে ভিত্তি করে সেটি প্রোগ্রামিং রিলেটে নতুন আরও কিছু বই রিকমেন্ড করবে। আরও সহজ করে বলতে চাইলে ধরুন আপনি ইউটিউবে সার্চ করলেন ‘Python Tutorial’ এটা সার্চ করার পরে হয়তো ইউটিউব আপনার হোমপেজে অনেকগুলো টিউটোরিয়াল সাজেশনে এনে দেবে এবং আপনি যখন একটা ভিডিও ক্লিক করার পরে কিছুক্ষণ দেখে হয়তো কেটে দেবেন। পরবর্তীতে যখনি আপনি ইউটিউবে যাবেন আশা করা যায় অন্য সব ভিডিওর পাশাপাশি কমপক্ষে ১-৩ টি পাইথন প্রোগ্রামিং এর ভিডিও হোমপেজে এনে দেবেই। তবে এর কারণ কি? আপনি যখন সার্চ করেছেন তখনি ইউটিউব বুঝতে পেরেছে আপনি Python এ ইন্টারেস্টেড। তাই পরবর্তীতে আপনার সামনে এই ধরনের ভিডিও সাজেস্ট করেছে। শুধু এটাই নয় সামনে আপনি যত ভিডিও দেখবেন সেখানে ভিডিওর মাঝে পেইড এড হিসেবে ইউটিউব আপনাকে যা দেখাবে সেগুলোও হবে পাইথন রিলেটেড।

এখন মনে প্রশ্ন জাগা টা স্বাভাবিক যে এই কাজগুলো হয় কিভাবে? এটা নিয়ে বিস্তারিত আলোচনা করতে গেলে কথা বলতে হবে মেশিন লার্নিং, এনএলপি এবং ডেটা মাইনিং নিয়ে। ML, NLP, DM সবকিছুই ডেটা সায়েন্স এর সাবসেট বলতে পারেন। প্রতিটি বিষয় নিয়ে স্পেসিফিক ভাবে অন্য আরেকটা আর্টিকেলে কথা বলবো ইনশাআল্লাহ।
ডেটা সায়েন্স শিখতে চাই। তবে কিভাবে শুরু করবো? এই প্রশ্নটা যেন প্রতিটি মানুষের একটা কমন প্রশ্ন। আমি আমার অভিজ্ঞতা থেকে কিছু টিপস শেয়ার করবো আশা করি নতুনদের জন্য অনেক উপকারে আসবে। প্রথমত, ডেটা সায়েন্স এ মাস্টার্স কোর্স করার মাধ্যমে শিখতে পারেন। সেটা সম্ভব না হলে অনলাইনে অনেক রিসোর্স রয়েছে। ধরুন আপনি আজ ঠিক করেছেন ডেটা সায়েন্স শিখতে চান। তবে আপনার করণীয় হলো প্রথমেই আপনাকে Python অথবা R Programming Language এর বেসিক ভালোভাবে শিখে নিতে হবে। এখানে এসে প্রায় ৮০%+ মানুষ কনফিউশানে থাকেন যে কোনটা দিয়ে শুরু করবো? উত্তর হলো আপনার যেটা ভালো লাগে। আমার মতে পাইথন প্রোগ্রামিং দিয়ে শুরু করাটা বেস্ট ডিসিশন। পাইথনের রিসোর্স ইউটিউবে ফ্রীতে পাবেন। Study Mart এর 60 Days Of Python আপনি বাংলা ভাষায় খুব সুন্দরভাবে বেসিক পাইথন প্রোগ্রামিং শিখে নিতে পারেন।

প্রশ্ন জাগা স্বাভাবিক আমি শুরুতেই R প্রোগ্রামিং এর কথা না বলে কেন Python এর কথা বললাম। Python হলো এমন একটি ল্যাংগুয়েজ যেটি ‘অল ইন ওয়ান’। আর সত্যি বলতে পাইথের সিনট্যাক্স মনে রাখা অনেকটা সহজ এবং অনলাইনে R এর থেকে Python এর রিসোর্স অনেক বেশি। তুলনামূলকভাবে ডেভলপমেন্ট এর কাজ আপনি পাইথন দিয়ে অনেক সহজে করতে পারবেন। আপনি যখন ইমেজ অথবা এনএলপি রিলেটেড কাজ কাজ করতে যাবেন আপনার পাইথনের কোন বিকল্প নেই। পাইথনের ওপর ভিত্তি করে ডিপ লার্নিং ফ্রেমওয়ার্ক যেমন Keras, Tensorflow, Pytorch এর মাধ্যমে খুব সহজেই অনেক কাজ করতে পারবেন। Python এ রয়েছে Sklearn এর মতো মেশিন লার্নিং লাইব্রেরি। Numpy এর মতো মেট্রিক্স লাইব্রেরি, Pandas, Vaex এর মতো ডাটাফ্রেম লাইব্রেরি, Django এর মতো ওয়েব ডেভেলপমেন্ট ফ্রেমওয়ার্ক, গেমস ডেভলপারদের জন্য রয়েছে PyGame, যা এককথায় অসাধারণ।

তবে R কোন দিক দিয়ে কম নয়। R দিয়েও মোটামুটি সবই করা গেলেও বেশিরভাগ Statistician এর পছন্দের ল্যাংগুয়েজ হলো R । কারণ R এ রয়েছে ২৪০০+ পরিসংখ্যানের লাইব্রেরি এবং যার ৩০০০+ বিল্ড ইন ফাংশন। যার মাধ্যমে স্টাস্টিক্যাল এনালাইসিস করা খুবই সহজ। আপনি ভালো ডাটা সায়েন্টিস্ট হতে চাইলে Python এবং R দুইটা ভাষায় পারদর্শী হতে হবে। এবং যদি আপনার টার্গেট হয় ডেটা এনালিস্ট তবে ডেটা এনালাইসিস স্কিল অর্জনের জন্য MS Excel, SQL Database, Stata, SPSS, Tableau অথবা PowerBi কমপক্ষে যেকোন একটা খুবই ভালোভাবে শিখে নিতে হবে।

শুরুটা হওয়া উচিত বেসিক পাইথন দিয়ে যখন আপনার বেসিক পাইথন শেষ তারপরে আপনার করনীয় হলো NumPy, Pandas, Seaborn, Matplotlib সম্পর্কে মোটামুটি ধারণা নেয়া। কারণ প্রতিটি ডাটা সায়েন্স প্রজেক্টের প্রায় ৭০% সময় ব্যায় হয় ডাটা প্রিপ্রসেসিং এবং স্টাটিসটিক্যাল এনালাইসিসে। আপনাকে EDA ভালো জানতেই হবে। তারপরে আপনার কাজ আপনি আপনার মডেল ডেভেলপমেন্ট করার জন্য এলগরিদম সিলেকশন করা। যেহেতু আপনি Python দিয়ে শুরু করবেন তাই আপনি প্রয়োজনীয় সকল এলগরিদম পাবেন Scikit Learn (সাইকিট লার্ন) এর মধ্যে। সবকিছু শেখার জন্য আপনার জন্য বেস্ট রিসোর্স হতে পারে Study Mart এর পাইথন প্লেলিস্ট। সেখানে বাংলা ভাষায় সবকিছু সুন্দর করে স্টেপ বাই স্টেপ পাইথন, মেশিন লার্নিং, ডিপ লার্নিং দেখানো হয়েছে। আর ইংরেজিতে রিসোর্স হিসেবে Coursera, MIT OpenCourseWare, Krish Naik, Edureka etc. ফলো করতে পারেন।

তবে বলে রাখা ভালো আপনি যদি একজন দক্ষ ডাটা সায়েন্টিস্ট হতে চান Kaggle এর কোন বিকল্প নেই। কারণ এখানে আপনি নোটবুক থেকে অনেক তথ্য পাবেন। এছাড়াও UCI, Kaggle এ পাবেন প্রাকটিস করার জন্য ফ্রী ডাটাসেট এবং আপনি চাইলে কম্পিটিশনে অংশগ্রহন করে জিতে নিতে পারেন পুরস্কার হিসেবে হাজার হাজার ডলার। মেশিন লার্নিং নিয়ে বাকি কথা হয়তো বলবো অন্য কোন আর্টিকেলে।

Join my data science courses: VISIT NOW

Kind Regards,
Rashedul Alam Shakil
Founder of aiQuest Intelligence & Study Mart
Master of Science in Data Science
Friedrich Alexander University, Germany

 

.

Check Out Our Course Modules

Learn without limits from affordable data science courses & Grab your dream job.

Become a Python Developer

Md. Azizul Hakim

Lecturer, Daffodil International University
Bachelor in CSE at KUET, Khulna
Email: azizul@aiquest.org

Data Analysis Specialization

Zarin Hasan

Senior BI Analyst, Apple Gadgets Ltd
Email: zarin@aiquest.org

Become a Big Data Engineer

A.K.M. Alfaz Uddin

Enterprise Data Engineering Lead Engineer at Banglalink Digital Communications Ltd.

Data Science & Machine Learning with Python

Rashedul Alam Shakil

Founder, aiQuest Intelligence
Automation Programmer at Siemens Energy
M. Sc. in Data Science at FAU Germany

Deep Learning & Generative AI

Md. Asif Iqbal Fahim
AI Engineer at InfinitiBit GmbH
Former Machine Learning Engineer
Kaggle Competition Expert (x2)

Become a Django Developer

Mr. Abu Noman

Software Engineer (Python) at
eAppair Limited