Python দিয়ে HTML Parsing করা যায়...HTML Parsing কি? এই সম্পর্কে বিস্তারিত জানতে চাই...

asked 31 Dec '16, 19:05

Tamal%20H's gravatar image

Tamal H
294


পার্সিং (parsing) করা মানে হচ্ছে কোনো কিছুকে ছোট ছোট অংশে ভাগ করে ফেলে সেসব অংশগুলো আলাদাভাবে বের করে নেওয়া। যেমন একটা এইচটিএমএল ফাইল পার্স করে আমরা সেই ফাইলের হেডিং, টাইটেল, বডি, আবার বডির ভেতরের কোনো অংশ, সেগুলো আলদাভাবে বের করতে পারি। এই কাজটা যেকোনো প্রোগ্রামিং ভাষাতেই করা যায়, আর অধিকাংশ প্রোগ্রামিং ভাষাতেই এইচটিএমএল ফাইল পার্স করার জন্য লাইব্রেরি তৈরি করে দেওয়া আছে। পাইথনেও এমন লাইব্রেরি রয়েছে, তার মধ্যে বিউটিফুল স্যুপ বেশ সহজ ও জনপ্রিয়। এছাড়া রেগুলার এক্সপ্রেশন ব্যবহার করেও এইচটিএমএল ফাইল পার্স করা যায়।

permanent link

answered 01 Jan, 17:47

Tamim%20Shahriar%20Subeen's gravatar image

Tamim Shahriar Subeen ♦♦
4.9k1025

ধন্যবাদ সুবিন স্যার

(01 Jan, 18:08) Tamal H

আমি HTML Parsing করার চেষ্টা করি নি তবে একবার XML file Parsing করার প্রয়োজন হয়েছিল । আমার মনে হয় দুইটা প্রায় কাছাকাছি । আমি XML দিয়ে পারসিং ব্যাপারটা ব্যাখ্যা করার চেষ্টা করছি ।

মনে করেন আমাদের নিচের মত একটা XML ফাইল আছে ,

< Invoice >
    < Header invoiceNumber="12345">
        < Date>
            < Month>July< /Month>
            < Day>15 < /Day>
            < Year>2001< /Year>
        < /Date>
        < BillTo custNumber="X5739" name="Milton McGoo" phone="416-448-4414">
            < Address>
                < street1>IBM< /street1>
                < street2>1150 Eglinton Ave East< /street2>
                < city>Toronto< /city>
                < state>Ontario< /state>
                < zip>M3C 1H7< /zip>
                < country>Canada< /country>
            < /Address>
        < /BillTo>
    < /Header>
    < Item discount="promotion" price="57">
        < description>high speed 3D graphics card < /description>
    < /Item>
< /Invoice>

এই ফাইলে আমাদের Address tag এর মধ্যে যে ট্যাগ গুলি আছে তার মধ্যে zip ট্যাগ টি ইনফরমেশনটি টি দরকার । এখন আপনার ফাইলে zip ট্যাগ এর সংখ্যা যদি খুব কম হয় তবে এই কাজটা মেনুয়েলি করতে পারবেন । কিন্তু আপনার ফাইলে যদি অনেক গুইলি zip নামে ট্যাগ থাকে এবং আপনার সবগুলি zip ট্যাগের তথ্য দরকার হয় তখন আপনাকে Script লিখতে হবে । সেটা ইনপুট হিসাবে বড় কোন XML ফাইল নিবে এবং আউটপুট হিসাবে আমরা যে tag গুলো খুজতেছি তার ইনফরমেশন দিবে । এই কাজটা যেভাবে করা হয় সেই প্রসেস কে বলা হয় Parsing ।

XML Parsing করার জন্য পাইথনের API আছে । সেগুলো ব্যাবহার করেই parsing এর সব কাজ করা যায় । HTML এর জন্য আছে আপনি google সার্চ করে দেখতে পারেন ।

ধন্যবাদ :)

permanent link

answered 01 Jan, 13:41

menon's gravatar image

menon
1.6k14

ধন্যবাদ Menon ভাই.আমরা যদি কোন সাইটের ডাটা কালেক্ট করতে চাই তখন আমরা web scraping এর মাধ্যমে কাজ করতে পাড়ি।তাহলে কি web scraping এবং XML Parsing/HTML Parsing এরা মামাতো খালাতো ভাই ?

(01 Jan, 18:08) Tamal H
Your answer
toggle preview

Follow this question

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

Answers

Answers and Comments

Markdown Basics

  • *italic* or _italic_
  • **bold** or __bold__
  • link:[text](http://url.com/ "title")
  • image?![alt text](/path/img.jpg "title")
  • numbered list: 1. Foo 2. Bar
  • to add a line break simply add two spaces to where you would like the new line to be.
  • basic HTML tags are also supported

Question tags:

×46
×9
×7
×1

question asked: 31 Dec '16, 19:05

question was seen: 83 times

last updated: 01 Jan, 18:08