3
New ফ্রেশ ফুটপ্রিন্ট
 
 
 
ফ্রেশ!
REGISTER

ডাটা এনালিষ্ট বনাম পাইথন (Python) প্রোগ্রামিং

Now Reading
ডাটা এনালিষ্ট বনাম পাইথন (Python) প্রোগ্রামিং

ডাটা এনালিষ্ট হতে হলে আপনাকে প্রথমে স্টাটিস্টিক্স জানতে হবে। যদি আপনি স্টাটিস্টিক্স এ ভাল জ্ঞান অর্জন করতে data analyst.jpg

পারেন তাহলে আপনি অনেক বড় মাপের ডাটা এনালিষ্ট হতে পারবেন। এর পাশাপাশি আরো কিছু সফটওয়্যারে আপনাকে অভিজ্ঞ হতে হবে যেমনঃ এসপিএসএস, পোষ্ট জিআরই এসকিউ এল, মঙ্গোডিবি, নো এসকিউএল ইত্যাদী।

বর্তমানে ওরাকল  এবং এসকিউএল সার্ভার এ ডাটা সংরক্ষণ করা হয়। কিন্তু ডাটা এনালাইসিস করতে হলে উপরে উল্লেখিত কোর্সগুলো জানা আবশ্যক। বর্তমান যুগে কোম্পানীর প্রেজেন্টেশন এবং রিপোর্ট করতে হলে নতুন কিছু টেকনোলজীতে আপনাকে পারদর্শী হতে হবে। সেই জন্য আপনাকে কিছু এনালাইসেস বেজড সফটওয়্যারে অভিজ্ঞ হতে হবে।

আমরা প্রথম অবস্থায় যে ডাটা সংগ্রহ করি তাকে বলা হয় র-ডাটা (Raw Data) এবং সেই ডাটাকে যখন প্রসেস করা হয় তখন তাকে বলা হয় প্রোসেস্ড ডাটা। আর এই প্রোসেস্ড ডাটাকে নিয়ে কোম্পানীর বড় স্যারেরা চান যে বিভিন্ন ধরনের রিপোর্ট তৈরী করে একটি ইন্টারেক্টিভ রিপোর্ট তৈরী করা। সেই জন্য দরকার রিসার্স মেথডলজী এবং টুলস বা সফটওয়্যার যেমন এসপিএসএস, স্টাটা, পোষ্ট জিআরই এসকিউ এল, মঙ্গোডিবি, নো এসকিউএল ইত্যাদী।

তবে ক্রিষ্টাল রিপোর্ট একটি রিপোর্টিং সফটওয়্যার যার মাধ্যমে আপনি যে কোন ধরনের রিপোর্ট তৈরী করা যায়। বর্তমানে ডাটাবেজের সাথে ক্রিষ্টাল রিপোর্ট ব্যাবহার করে অনেক জনপ্রিয় রিপোর্ট তৈরী করা যায়।

ডাটাবেজ জানতে হলে আপনাকে এসকিউএল (SQL) জানতে হবে। এসকিউএল জানলে আপনি বড় ডাটাবেজ সফটওয়্যার যেমনঃ ওরাকল (Oracle), এসকিউএল সার্ভার (SQL Server), পোষ্ট জিআরই এসকিউএল (Post greSQL), মাই এসকিউএল (My SQL), মঙ্গোডিবি (Mongo DB), নো এসকিউএল (no SQL) সহ অন্যান্ন যেকোন ডাটাবেজের সাথে কানেক্ট করে সবগুলোই যখন যেটা দরকার সেটা করতে পারবেন এবং সবগুলোই ব্যাকএন্ড এর কাজ। ব্যাকএন্ড হলো সফটওয়্যারের ভিতরের কাজ আর বাহিরের কাজ যেটা ইউজাররা দেখতে পায় সেটা হলো ফন্টএন্ড এর কাজ। চাকরীর মার্কেটে অনেকসময় দুই ধরনের প্রোগ্রামারই চায় যেমন ফ্রন্ট এন্ড ডেভেলপার এবং ব্যাকএন্ড ডেভেলপার, প্রোগ্রামার, সফটওয়্যার এনালিষ্ট, ডাটা এনালিষ্ট, এনালিষ্ট প্রোগ্রামার ইত্যাদী।

একজন সফল সফটওয়্যার ডেভেলপার হতে হলে আপনাকে অনেক কিছুই জানতে হবে কারন কোম্পানীগুলো এখন একেকজন একেক ধরনের সফটওয়্যার নিয়ে কাজ করে। যেমনঃ আপনি ওরাকলের উপর এক বছর কাজ করেছেন কিন্তু চাকুরীর ক্ষেত্রে গিয়ে দেখলেন এসকিউএল সার্ভার দরকার তখনতো আর এসকিউএল সার্ভারের এক বছরের কোর্স নতুন করে করা সম্ভবনা বা ইচ্ছা করলে আপনি সন্ধ্যার ব্যাচে কোন ভাল যায়গা থেকে কোর্সটি সম্পন্নও করতে পারবেন। অথবা আপনি ইন্টারনেটের (ইউটিউব, গুগল সার্চ) সাহায্য নিয়েই আপনি কোর্সগুলো সম্পন্ন করতে পারবেন। এর বাহিরেও আপনি অনেক রিসোর্স ডাউনলোড করতে পারবেন যেগুলো ইন্টারনেটে ফ্রি পাওয়া যায়।

পাইথন হচ্ছে একটি বহু-প্যারাডাইম প্রোগামিং ল্যাঙ্গুয়েজ যাকে বলা যায় ফাংশন-ভিত্তিক বা বস্তু সংশ্লিষ্ট ও নির্দেশঅমূলক একটি উচ্চতর ল্যাঙ্গুয়েজ। এত স্বনিয়ন্ত্রিত মেমরী ব্যাবস্থাপনা রয়েছে। এটা আসেলে পার্ল বা রুরীর মত প্রোগ্রামিং ল্যাঙ্গুয়েজের প্রোগ্রামিং এর মত। পাইথন আসলে একটি সাপ যা অনেক বড় আকৃতির ঠিক তেমনি প্রোগ্রামিং জগতের বড় এবং শক্তিশালী একটি প্রোগ্রামিং ল্যাংগুয়েজ হচ্ছে পাইথন প্রোগ্রামিং। এটা অবজেক্ট অরিয়েন্টেড হাই লেভেল ল্যাঙ্গুয়েজ। বর্তমানে পৃথিবীর নানা দেশে প্রোগ্রামিং শেখা শুরু করার জন্য পাইথন প্রোগ্রামিং ভাষাটি অনেক জনপ্রিয় হয়েছে। বাংলাদেশের বিভিন্ন শিক্ষা প্রতিষ্ঠানের এমনকি স্কুলের শিক্ষার্থীরাও পাইথন দিয়ে প্রোগ্রামিং রচনা শুরু করেছে, ঠিক তেমনিভাবে এমআইটি (MIT) এর মতো বিভিন্ন বিশ্ববিদ্যালয়গুলোতেও তাদের পড়াশুনার সিলেবাসে পাইথন দিয়ে প্রোগ্রামিং শিক্ষা শুরু করেছে যা সত্যিই প্রশংসনীয়। সহজ কিন্তু শক্তিশালী একটি প্রোগ্রামিং ভাষা হচ্ছে পাইথন। যারা কোন প্রোগ্রামিংই শুরু করেননি তাদের জন্য পাইথন হতে পারে সবচেয়ে সহজ একটি ল্যাঙ্গুয়েজ। আবার লার্জ স্কেল প্রোজেক্টে ব্যাবহারের জন্য পাইথনের জুরি নেই।পাইথন দিয়ে একই সাথে মোবাইল অ্যাপ, ডেস্কটপ অ্যাপ, অ্যাপ/ওয়েব সাইট এবং উন্নতমানের গেম ডেভেলপমেন্ট করা যায়। তাই ডাটা সাইন্টিষ্টদের পছন্দের তালিকায় রয়েছে পাইথন প্রোগ্রামিং। এটা এমন একটি ল্যাঙ্গুয়েজ যা দিয়ে সব কিছুই করা যায়। প্রোগ্রামিং করার সময় প্রায় সময়ই আমাদের অনেক সময় টিম মেম্বারদের সাথে কাজ করতে হয়। যেখানে আপনাকে কোড পড়তে হয় এবং দেখতে হয়। পড়ার পর আবার বুঝতে হয় এবং সেগুলো শেয়ার করতে হয়। তাকে আমরা লাইব্রেরী বলে থাকি। এই কাজের জন্য আমরা লাইব্রেরীকে বারবার ব্যাবহার করতে পারি। পাইথনের সুবিধা হচ্ছে এই ল্যাঙ্গুয়েজটা অনেকটা অরগানাইজড যা সহজে পড়ে বুঝা যায়। এই সফটওয়্যার দিয়ে মোবাইল অ্যাপ, গেম এবং ইচ্ছা করলে অনেক বড় বড় সফটওয়্যার তৈরী করা যায়।

বিনোদনের অপর নাম প্রোগ্রামিং সেটা অনেকে বুঝে না। আমাদের দেশে প্রোগ্রামিং সম্পর্কে ধারনা চিরতার মত তিক্ত। এই ভীতি দুর করার জন্য পাইথন প্রোগ্রামিং সবচেয়ে ভাল একটি সলুশন। পাইথন একটি বিগিনার ফ্রেন্ডলি ল্যাঙ্গুয়েজ যা তুলনামূলকভাবে অনেক সহজ। পাইথনে লিখা কোড সহজবোধ্য। পাইথনের নিজস্ব অনেক মডিউল ও লাইব্রেরী থাকা সত্ত্বেও বিভিন্ন ধরনের প্যাকেজ পাওয়া যায়। যেমন বায়োপাইথন, পাইজিটিকে, ইমেজ প্রসেসিং এর জন্য অপেনসিভি ইত্যাদী উল্লেখযোগ্য।

ডাটা এনালিষ্ট প্রোগ্রামাররা বর্তমানে অনেকে বড় বড় কোম্পানীতে চাকুরী করছে এবং বর্তমানে তাদের আয় ও অনেক বেশী। অনেকে আবার বিদেশেও চাকুরী পাওয়ার সুযোগ পেয়ে থাকে। বিগ ডাটাকে নিয়ে কাজ করার জন্য অনেকে পোষ্ট জিআরই এসকিউ এল নিয়ে কাজ করে।

অনেক অফিস আবার পেপারলেস অফিস তৈরী করার পরিকল্পনা গ্রহন করেছ। তারা সকল হার্ডকপি অফিস ডকুমেন্টকে সফট কপিতে পরিবর্তন করছে এবং যখন যেটা দরকার তখন সেটা সার্ভার থেকে ডাউনলোড করে নিতে পারবে।

বাংলাদেশে খুব ভাল মানের ডাটা এনালিষ্টদের অভাব রয়েছে যা উত্তোলন করতে হলে বাংলাদেশে ভাল মানের কোর্স করা দরকার এবং সবার উদ্দোগ গ্রহন করা দরকার। তবে ভাল ট্রেনিং সেন্টার থেকে কোর্স করলে ভাল কিছু শেখা যায়। বর্তমানে ডেফোডিল কম্পিউটার, ষ্টার কম্পিউটার, জেনুইটি, বেইস ট্রেনিং সিন্টারগুলো ভাল কিছু শেখানোর চেষ্টা করছে।

ডাটা এনালিষ্ট হতে হলে আপনাকে অফিস প্রোগ্রাম খুব ভাল মত জানতে হবে বিশেষ করে এমএস এক্সেল এবং মাইক্রোসফটএক্সেস এবং এর পরই শিখতে পারেন এসপিএসএস, পোষ্ট জিআরই এসকিউএল

বিভিন্ন সফটওয়্যার কোম্পানীতে প্রোগ্রামার বা ডাটা এনালিষ্ট এর পাশাপাশি টেষ্টার ও প্রয়োজন হয় কারন সফটওয়্যারটা বানানোর পরে অনেক বাগ বা ভুল থাকতে পারে সেগুলো ধরিয়ে দিয়ে সফটওয়্যারকে ভুল ফ্রি করাও টেষ্টারের কাজ। তাই বর্তমানে অনেক কোম্পানীতে টেষ্টার প্রয়োজন হয়। ডাটা এনালিষ্ট অনেক সময় টেষ্টারের কাজও করে থাকে। অনেক সময় বিভিন্ন ফরমেটে রিপোর্ট তৈরী করে থাকে। পাশাপাশি অনেক সফটওয়্যার কোম্পানীতে প্রোগ্রামারদের সাহায্যও ডাটা এনালিষ্টগন করে থাকে।

“বিগ ডাটা” (Big Data) একটি নতুন টেকনোলজী একটি নতুন সম্ভাবনার দুয়ার

Now Reading
“বিগ ডাটা” (Big Data) একটি নতুন টেকনোলজী একটি নতুন সম্ভাবনার দুয়ার

ডাটা এবং বিগ ডাটা কি?

বর্তমান যুগে আমরা প্রতিনিয়ত ডাটা নিয়ে কাজ করি। অনেকগুলো তথ্য বা ডাটাকে নিয়ে গঠিত হয় তথ্য ভান্ডার। বা তথ্যের ব্যাবহার করে থাকি। ডাটা ছাড়া দৈনন্দিন জীবনে চলা অসম্ভব । এই ডাটা কমে না বরং শুধু বাড়তেই থাকে । ডাটা বলতে শুধু যেকোন লিখাকে বুঝি না বরং ডাটা হতে পারে ছবি, ভিডিও, এনিমেশন ইত্যাদি। ডাটা বড় হতে হতে তৈরী হয় বিগ ডাটা।

ডাটা কিভাবে তৈরী হয়?

ডাটা নানা রকমভাবে তৈরী হয়ে থাকে যেমন আমরা কম্পিউটারে যত কাজ করি এবং জমা করি সবই ডাটার সমষ্টি বা অনেক সময় বলা হয় তথ্য ভান্ডার। আমরা যে মোবাইল দিয়ে ছবি তুলি তা মোবাইলে স্টোর হয় এবং সেই ছবিও একটি ডাটা।

বিগ ডাটা কেন গুরুত্বপূর্ণ?

যখন আমরা মোবাইল দিয়ে কোন ভিডিও করি তখন আমাদের মোবাইলের স্টোরেজে একটি ভিডিও ফাইল তৈরী হয়ে কিছু জায়গা দখল করে। সেই ভিডিওটিও এক ধরনের ডাটা বা ইনফরমেশন। এভাবে অসংখ্য ডাটা বা ইনফরমেশন মোবাইলে, কম্পিউটারে বা ল্যাপটপে জায়গা দখল করতে করতে জায়গা শেষ হয়ে যায়। উধাহরন হিসাবে বলা যায়, আমরা যে কম্পিউটার কিনে থাকি সেই কম্পিউটারে প্রাথমিক অবস্থায় অনেক জায়গা থাকে কিন্তু সময়ের সাথে সাথে যখন আমরা প্রচুর ডাউনলোড করি গান, ভিডিও, সিনেbig-data-word-cloud.jpgমা, সফটওয়্যার ইত্যাদি তখন আমাদের কম্পিউটারের জায়গাও এক সময় শেষ হয়ে যায়। তখনই প্রয়োজন হয় আলাদা পেন ড্রাইভ, সিডি, ডিভিডি কপি ইত্যাদি।  আর যখন এই ডাটা আরো বিপুল পরিমানে হয় তখন কি করা যায় ? এই রকম একটি চিন্তাভাবনা থেকেই তৈরী হয় একটি নতুন টেকনোলজী কনসেপ্ট আর তা হলো বিগ ডাটা কনসেপ্ট। বিগডাটা হচ্ছে একটি টেকনোলজী এটা বিভিন্ন সফটওয়্যার দিয়ে চালানো যায়। আশ্চর্যের ব্যাপার আপনি শুধু সাধারন একটি ল্যাপটপ দিয়ে বাসায় বসেই বিগ ডাটার কাজ করতে পারবেন।

ডাটা তৈরীর রেট নিম্নরুপঃ

প্রতি ৬০ সেকেন্ডে টুইটারে ৯৮,০০০ জনের বেশী টুইট হয়;

প্রতি ৬০ সেকেন্ডে ফেসবুকে ৬৯৫,০০০ জনের বেশী স্টাটাস আপডেট হয়;

প্রতি ৬০ সেকেন্ডে ১১ মিলিয়ন মেসেজ পাঠানো হয়;

প্রতি ৬০ সেকেন্ডে ৬৯৮,৪৪৫ এর বেশী মানুষ গুগলে সার্চ করে;

প্রতি ৬০ সেকেন্ডে ১৬৮ মিলিয়ন বা তার বেশী ইমেইল পাঠানো হয়;

প্রতি ৬০ সেকেন্ডে ১,৮২০ টেরাবাইটস এর বেশী ডাটা তৈরী হয়।

ওয়ার্ল মার্ট প্রতি ৬০ মিনিটে ১ লক্ষ এর বেশী ডাটা আদান প্রদান করে এবং এই তথ্য এক বিশাল তথ্য ভান্ডারে জমা হয়।

বিগ ডাটা টেকনোলজীতে কোন ধরনের সফটওয়্যার ব্যাবহৃত হয়?

বিগ ডাটাতে যে সকল টেকনোলজী ব্যাবহার হয় তা হলো  “হাডুপ (Hadoop)” নামের এক ধরনের ওপেন সোর্স সফটওয়্যার এবং এটা একটা ডিসট্রিবিউটেড অ্যাপ্লিকেশন ফ্রেমওয়ার্ক যার বিপুল তথ্য প্রসেস করার ক্ষমতা আছে। “হাডুপ” কোন রিলেশনাল ডাটাবেজ না বরং এটা অফ লাইন বা ব্যাচ প্রসেসিং সিস্টেম। হাডুপ এর ইকো-সিস্টেম হলো এইচডিএফএস অর্থ্যাৎ হাডুপ ডিসট্রিবিউটেড ফাইল সিস্টেম এবং এর সাথে ব্যাবহার হয় ম্যাপ রেডুস সিস্টেম যা একটি ডিসট্রিবিউটেড ফ্রেমওয়ার্ক সিস্টেম যা প্যারালালি কাজ কে এগিয়ে নিয়ে যায়। হাডুপ সিস্টেম এর ব্যাবহারগুলো হলোঃ মার্কেটিং তথ্য বিশ্লেষণ, মেশিন লার্নিং, ইমেজ প্রসেসিং, এক্সএমএল মেসেজ প্রসেসিং, টেক্সট প্রসেসিং ইত্যাদি।

বর্তমানে হাডুপ এবং ম্যাপরিডিউস ছাড়াও আরো দ্রুত গতির সলুশন চলে এসেছে। সেই রকম একটি টেকনোলজী হলো স্পার্ক (Spark) যা এপাচির (Apache) একটি প্রজেক্ট।

স্পার্ক ফ্রেমওয়ার্কে Python এবং R নামের দুটি সফটওয়্যার দিয়েই কাজ করা যায়। এবং বর্তমানে এই দুইটি বিশ্বে খুব জনপ্রিয় এক ধরনের সফটওয়্যার।

স্পার্ক এর আর এপিআই হলো স্পার্কআর (SparkR) এবং পাইথন এপিআই হলো PySpark যেকোন একটি সফটওয়্যার দিয়ে আপনি কাজ করতে পারেন। আরা একটি পাওয়ারফুল প্রজেক্ট আছে আর তা হলো এইচ ২০ (H20) এবং তাদের ওয়েবসাইট হলো h20.ai, হাডুপ এর উপর তৈরী হয় এপাচির হাইভ (Hive) হল একধরনের ডাটা ওয়্যারহাউজ ইনফ্রান্ট্রাকচার যার কাজ হলেঅ তথ্যকে একত্রিত করা এবং ক্যুয়েরী (Query) করে ডাটা বিশ্লেষণ করা। এটা এসকিউএল (SQL) এর মত ল্যাঙ্গুয়েজ ব্যাবহার করে যার নাম হাইভক্যুল (HiveQL)।

আর এইচবেস (HBase) হল একটি ওপেন সোর্স যা নন-রিলেশনাল ডিসট্রিবিউটেড ডাটাবেস মডেল যা জাভা দিয়ে লেখা হয়েছে। এটা ডাটার ভুল ধরে অনাবশ্যক তথ্যকে সঞ্চয় করে। ডাটা এনালাইসিস এ এসকিউএল (SQL) এর চেয়ে বেশী প্রয়োজন হয় আরো গুরুত্বপূর্ন সফটওয়ার আর তার নাম হলো R, R  এক ধরনের স্ট্যাটিস্টিক্যাল প্রোগ্রামিং লেংগুয়েজ যা দিয়ে খুব সহজেই যে কোন ডাটা এনালাইসিস করা যায়। এখানে অনেক জিনিসই আপনি বিল্টইন পাবেন যার ফলে আপনাকে খুব বেশী কোড লিখতে হবে না।

বিগডাটার সুবিধা সমূহঃ

বিগডাটা দিয়ে সুধু ডাটা জমা রাখা যায় তা না বরং ডাটা এনালাইসিস করা যায়, বিভিন্ন ধরনের কাষ্টমাইজ রিপোর্ট জেনারেট করা যায়।  বিগ ডাটা শিখে একজন ছাত্র হতে পারে ডাটা এনালিষ্ট, প্রোগ্রামার, বিগ ডাটা ইঞ্জিনিয়ার, বিজনেস এনালিষ্ট, সোসাল মিডিয়া এনালিষ্ট, ডাটা ইঞ্জিনিয়ার, বিজনেস ডাটা ‍স্পেশালিষ্ট, ডাটা ভিজুয়ালাইজেশন ডেভেলপার, বিআই সোলুশন আর্কটেকচার ইত্যাদী হতে পারে।

বিগ ডাটার বিশেষ বৈশিষ্টঃ

আমরা আগে জানতান ওরাকল সফটওয়্যার সবচেয়ে বেশী ডাটা নিতে পারে কিন্তু না এখন যেখানে ওরাকল এবং এসকিউএল সার্ভারের মত বড় বড় সার্ভার ডাটা নিতে নিতে জায়গা শেষ হয়ে যায় সেখানে বিগ ডাটা ব্যাবহৃত হয় এবং বিগ ডাটা অনায়াশে আনলিমিটেড ডাটা বহন করার ক্ষমতা রাখে।