(web scraping) ওয়েব স্ক্র্যাপিং সম্পর্কে বিস্তারিত জানার জন্য বাংলাভাষার কোন ওয়েবসাইট আছে কি? ইংরেজী ভাষায় ভালো ওয়েবসাইট কোনটি বলে মনে করেন?

asked 10 Jan '15, 19:55

mylex's gravatar image

mylex
5615

edited 13 Jan '15, 10:20

tahmidrafi's gravatar image

tahmidrafi ♦♦
995214


ওয়েব স্ক্র্যাপিং কি?

একটা ওয়েবসাইট থেকে তথ্য কম্পিউটার প্রোগ্রাম বা সফটওয়্যারের মাধ্যমে সংগ্রহ করাকে বলে ওয়েব স্ক্র্যাপিং। ধরা যাক, একটা অনলাইন স্টোরের ওয়েবসাইট আছে। আমরা সেই ওয়েবসাইটে গেলে বিভিন্ন পণ্যের তথ্য দেখতে পাই। আমরা যদি চাই, এই ওয়েবসাইটের সবগুলো পণ্যের তথ্য সংগ্রহ করতে, তথন আমাদের বসে বসে ওই ওয়েবসাইটের সবগুলো পেইজে যেতে হবে। তা না করে আমরা একটা সফটওয়্যার লিখতে পারি যে এই কাজটা করে দিবে। অর্থাৎ, ওয়েবসাইটের সবগুলো পেইজ লোড করবে ও পণ্যের তথ্য গুলো সংগ্রহ করে আমাকে দেবে।

যদি আরেকটু টেকনিকাল্যি বলি, স্ক্যাপিংয়ের প্রথমে ধাপ হচ্ছে ক্রলিং। ক্রলার সফটওয়্যারটি ওয়েবসাইটের হোমপেইজ এর HTML কোড লোড করবে, এরপর লিঙ্ক ট্যাগ খুঁজে সাইটের প্রতিটি পেইজের লিঙ্ক খুঁজে বের করবে। এরপর প্রতিটি পেইজের HTML কোড লোড করবে (একজন মানুষ বাস্তবে যেভাবে করতো) এবং এই HTML পার্স করে রেগুলার এক্সপ্রেশন বা এই জাতীয় কোনো টুল ব্যবহার করে নির্দিষ্ট ফরম্যাটে উপস্থাপিত পণ্যের তথ্য গুলো সংগ্রহ বা স্ক্র্যাপ করে ফাইল অথবা ডাটাবেইসে স্টোর করবে। এই সফটওয়্যার গুলো কে অনেক সময় বলে বট (বা রোবট)।

গুগল, বিং, বাইদু এই সার্চ ইঞ্জিন গুলোও পৃথিবীর যাবতীয় ওয়েবসাইট নিয়মিত ক্রল করে তার তথ্যগুলো নির্দিষ্ট ফরম্যাটে ইনডেক্সিং করে রাখে যাতে করে কেউ সার্চ করলে তার কাছে সংরক্ষিত ডাটাবেইজ থেকে সে ওই সংক্রান্ত ওয়েবসাইটগুলো প্রদর্শন করতে পারে।

webscraper.io নামে একটি গুগল ক্রোম ব্রাউসার এক্সটেনশন আছে। এটি দিয়ে মৌলিক স্ক্র্যাপিংয়ের কাজ করা যায়। এই ভিডিও টা দেখলে স্ক্যাপিং কি ও সফটওয়্যারটি কিভাবে কাজ করে সে ব্যাপারে ধারনা পাওয়া যাবে। Web Scraper intro.

ভাষা

PHP, Python, Java, R যেকোন প্রোগ্রামিং ভাষা ব্যবহার করেই ওয়েব ক্রলিং ও স্ক্র্যাপিং করা যায়। প্রতিটি ভাষাতেই আলাদা আলাদা টুল ও লাইব্রেরী আছে।

রিসোর্স

এখানে পাইথনে ওয়েব স্ক্র্যাপিংয়ের কিছু ইংরেজী টিউটোরিয়ালের (সবগুলোই পাইথনের জন্য) লিঙ্ক দিলাম। এগুলো সবই উদাহরন ভিত্তিক অর্থাৎ, কোনো একটি ওয়েবসাইটকে টার্গেট করে তার তথ্য সংগ্রহের জন্য তৈরী। তবে, এগুলো পড়ে বুঝতে হলে আগে HTML, CSS, Python, Web Concept, সামান্য জাভাস্ক্রিপ্ট জানতে হবে।

জাভাস্ক্রিপ্ট ভালো জানা থাকলে এখানে node.js ব্যবহার করে স্ক্র্যাপিংয়ের একটি টিউটোরিয়াল আছে।

permanent link

answered 13 Jan '15, 09:48

tahmidrafi's gravatar image

tahmidrafi ♦♦
995214

edited 13 Jan '15, 11:07

__salman__'s gravatar image

__salman__ ♦♦
1.1k211

HTTrack কে ওয়েব স্ক্র্যাপার বলা যাবে কি?

(06 Sep '16, 18:59) thenanobel

যে software কৌশল দ্বারা কোন ওয়েবসাইট থেকে ডাটা সংগ্রহ করা বা ডাটা একত্রিত করা হয় তাকে ওয়েক স্ক্রাপিং বলে ।

বাংলাতে এর তেমন ভালো রিসোর্স নাই। তবে সুবীন স্যার এর টিউটোরিয়াল আসার কথা ছিল। আসছে কিনা সঠিক জানি না ।

ইংরেজী ভাষায় আপনি এইগুলো দেখতে পারেন।

http://webscraper.io/

http://newcoder.io/scrape/intro/

https://www.udemy.com/learn-web-scraping-in-minutes/

permanent link

answered 10 Jan '15, 21:25

ishahriyar's gravatar image

ishahriyar
9519

edited 21 Jan '15, 19:59

ওয়েব ডেটা স্ক্র্যাপার জন্য , আমি মনে করি Octoparse আপনি স্বার্থ হতে পারে !

Octoparse একটি সহজে ব্যবহারযোগ্য কিন্তু শক্তিশালী ওয়েব চাঁচুনি সফ্টওয়্যার অক্টোপাস ডেটা ইনক, একটি হাইটেক বড় তথ্য services.No উপর মনোযোগ নিবদ্ধ করে জ্ঞান কোডিং জানতে হবে কোম্পানী দ্বারা বিকশিত টুল . আপনি regex এবং xPath যে ভাল হবে সম্পর্কে কিছু জানেন তাহলে .

এটা দেখ.https://www.youtube.com/channel/UCweDWm1QY2G67SDAKX7nreg

permanent link

answered 14 Jun '16, 05:21

Hanasaki's gravatar image

Hanasaki
1

ওয়েব স্ক্র্যাপিং হল ওয়েব রিসোর্স (পৃষ্ঠা, ডকুমেন্ট, ছবি ইত্যাদি) থেকে তথ্য নিষ্কাশন একটি প্রক্রিয়া। ক্রলিং এবং স্ক্রাপিংয়ের মধ্যে পার্থক্যটি আপনাকে ওয়েব পৃষ্ঠার সম্পূর্ণ সামগ্রী পেতে ক্রলিং করে এবং যখন আপনি স্ক্র্যাপ করছেন তখন আপনি পৃষ্ঠার নির্দিষ্ট অংশের অংশগুলি বের করছেন।

আপনি তথ্য নিষ্কাশন কাজগুলির জন্য Diggernaut ব্যবহার করার চেষ্টা করতে পারেন। এর মেঘ ভিত্তিক ওয়েব স্ক্র্যাপিং পরিষেবা। আপনি চাক্ষুষ টুল ব্যবহার করতে পারেন অথবা মেটা ভাষা স্ক্র্যাপ করার মাধ্যমে স্ক্রাপার তৈরি করতে পারেন।

permanent link

answered 17 Feb, 11:00

jacolomo's gravatar image

jacolomo
111

Your answer
toggle preview

Follow this question

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

Answers

Answers and Comments

Markdown Basics

  • *italic* or _italic_
  • **bold** or __bold__
  • link:[text](http://url.com/ "title")
  • image?![alt text](/path/img.jpg "title")
  • numbered list: 1. Foo 2. Bar
  • to add a line break simply add two spaces to where you would like the new line to be.
  • basic HTML tags are also supported

Question tags:

×33
×4

question asked: 10 Jan '15, 19:55

question was seen: 2,913 times

last updated: 17 Feb, 11:00