Semalt: Menggores Web Dengan Python

Pernahkah Anda mengalami saat-saat yang menakutkan ketika Anda tidak memiliki Wi-Fi. Jika demikian, maka Anda telah menyadari betapa banyak yang Anda lakukan pada komputer Anda bergantung pada internet. Karena kebiasaan, Anda akan memeriksa email, melihat foto Instagram teman Anda, serta membaca tweet mereka.

Karena begitu banyak pekerjaan komputer melibatkan proses web, akan sangat nyaman jika program Anda bisa online juga. Ini adalah kasus untuk pengikisan web . Ini melibatkan penggunaan program untuk mengunduh dan memproses konten dari web. Misalnya, Google menggunakan berbagai program memo untuk mengindeks halaman web untuk mesin pencari mereka.

Ada banyak cara di mana Anda dapat mengikis data dari internet. Banyak dari metode ini memerlukan perintah dari berbagai bahasa pemrograman seperti Python dan R. Misalnya, dengan Python, Anda dapat menggunakan sejumlah modul seperti Requests, Beautiful soup, Webbrowser, dan Selenium.

Modul 'Permintaan' memungkinkan Anda untuk mengunduh file dengan mudah dari web tanpa harus khawatir tentang masalah-masalah sulit seperti masalah koneksi, kesalahan jaringan dan kompresi data. Itu tidak harus datang dengan Python, jadi Anda harus menginstalnya terlebih dahulu.

Modul ini dikembangkan karena modul 'urllib2' Python memiliki banyak komplikasi sehingga sulit digunakan. Ini sebenarnya cukup mudah untuk diinstal. Yang harus Anda lakukan adalah menjalankan permintaan instalasi pip dari baris perintah. Anda kemudian perlu melakukan tes sederhana untuk memastikan bahwa modul telah terpasang dengan benar. Untuk melakukannya, Anda dapat mengetik '>>> permintaan impor' ke shell interaktif. Jika tidak ada pesan kesalahan muncul, maka instal berhasil.

Untuk mengunduh halaman, Anda perlu menjalankan fungsi 'requests.get ()'. Fungsi ini mengambil string URL untuk diunduh dan kemudian mengembalikan objek 'respons'. Ini berisi respons server web yang dikembalikan untuk permintaan Anda. Jika permintaan Anda berhasil, maka halaman web yang diunduh disimpan sebagai string dalam variabel teks objek respons.

Objek respons biasanya memiliki atribut kode status yang dapat Anda gunakan untuk mengetahui apakah unduhan Anda berhasil. Demikian pula, Anda dapat memanggil metode 'rise_for_status ()' pada objek respons. Ini menimbulkan pengecualian jika terjadi kesalahan saat mengunduh file. Ini adalah cara yang bagus untuk memastikan bahwa suatu program berhenti ketika terjadi unduhan yang buruk.

Dari sini, Anda dapat menyimpan file web yang diunduh di hard drive menggunakan fungsi standar, 'open ()' dan 'write ()'. Namun, untuk mempertahankan pengkodean Unicode teks, Anda harus mengganti data teks dengan data biner.

Untuk menulis data ke file, Anda dapat memanfaatkan loop 'untuk' dengan metode 'iter_content ()'. Metode ini mengembalikan bulks data pada setiap iterasi melalui loop. Setiap bulk dalam byte, dan Anda harus menentukan berapa banyak byte setiap bulk akan berisi. Setelah selesai menulis, panggil 'tutup ()' untuk menutup file, dan pekerjaan Anda sekarang berakhir.

mass gmail