كشط المواقع مع بيثون و BeautifulSoup نصيحة Semalt

هناك أكثر من معلومات كافية على الإنترنت حول كيفية اكتشاف المواقع والمدونات بشكل صحيح. ما نحتاجه ليس فقط الوصول إلى هذه البيانات ولكن الطرق القابلة للتجميع لجمعها وتحليلها وتنظيمها. تعد Python و BeautifulSoup أداتين رائعتين لكشط مواقع الويب واستخراج البيانات. في تجريف الويب ، يمكن بسهولة استخراج البيانات وعرضها بتنسيق تحتاجه. إذا كنت مستثمرًا متعطشًا يقدر وقته / أمواله ، فأنت بالتأكيد بحاجة إلى تسريع عملية إلغاء الويب وجعلها محسنة قدر الإمكان.

ابدء

سنستخدم كل من Python و BeautifulSoup كلغة الكشط الرئيسية.

  • 1. بالنسبة لمستخدمي Mac ، يتم تثبيت Python مسبقًا في OS X. عليهم فقط فتح Terminal والكتابة في نسخة python –version . بهذه الطريقة ، سيكونون قادرين على رؤية إصدار Python 2.7.
  • 2. بالنسبة لمستخدمي Windows ، نوصي بتثبيت Python عبر موقعه الرسمي.
  • 3. بعد ذلك ، يجب عليك الوصول إلى مكتبة BeautifulSoup بمساعدة النقطة. تم تصميم أداة إدارة الحزم هذه خصيصًا لـ Python.

في الوحدة الطرفية ، يجب عليك إدخال الرمز التالي:

نقطة تثبيت سهلة

تثبيت النقطة BeautifulSoup4

قواعد الكشط:

قواعد الكشط الرئيسية التي يجب عليك الاهتمام بها هي:

  • 1. يجب عليك التحقق من القواعد واللوائح الخاصة بالموقع قبل الشروع في كشطه. لذا كن حذرا للغاية!
  • 2. لا يجب عليك طلب البيانات من المواقع بقوة. تأكد من أن الأداة التي تستخدمها تتصرف بشكل معقول. خلاف ذلك ، يمكنك كسر الموقع.
  • 3. طلب واحد في الثانية هو الممارسة الصحيحة.
  • 4. يمكن تعديل تخطيط المدونة أو الموقع في أي وقت ، وقد تضطر إلى إعادة زيارة هذا الموقع وإعادة كتابة التعليمات البرمجية الخاصة بك كلما لزم الأمر.

افحص الصفحة

مرر مؤشر الماوس على صفحة السعر لفهم ما يجب فعله. اقرأ النص المتعلق بكل من HTML و Python ، ومن النتائج ، سترى الأسعار داخل علامات HTML.

تصدير إلى Excel CSV

بمجرد استخراج البيانات ، فإن الخطوة التالية هي حفظها في وضع عدم الاتصال. تنسيق Excel Comma Separated Format هو الخيار الأفضل في هذا الصدد ، ويمكنك فتحه بسهولة في ورقة Excel الخاصة بك. ولكن أولاً ، سيكون عليك استيراد وحدات Python CSV ووحدات الوقت والتاريخ لتسجيل بياناتك بشكل صحيح. يمكن إدراج الكود التالي في قسم الاستيراد:

استيراد csv

من استيراد التاريخ والوقت

تقنيات الكشط المتقدمة

BeautifulSoup هي واحدة من أبسط الأدوات الشاملة لشبكة الإنترنت. ومع ذلك ، إذا كنت بحاجة إلى جمع كميات كبيرة من البيانات ، ففكر في بعض البدائل الأخرى:

  • 1. Scrapy هو إطار كشط ثعبان قوي ومدهش.
  • 2. يمكنك أيضًا دمج الشفرة مع واجهة برمجة تطبيقات عامة. ستكون كفاءة بياناتك مهمة. على سبيل المثال ، يمكنك تجربة Facebook Graph API ، مما يساعد على إخفاء البيانات ولا يظهرها على صفحات Facebook.
  • 3. بالإضافة إلى ذلك ، يمكنك استخدام برامج الواجهة الخلفية مثل MySQL وتخزين البيانات بكميات كبيرة وبدقة عالية.
  • 4. يشير DRY إلى "لا تكرر نفسك" ويمكنك محاولة أتمتة المهام العادية باستخدام هذه التقنية.

send email