Back to Question Center
0

Semalt: hoe kin de Python brûke om in webside te skrassen?

1 answers:

Data spielt in krityske rol yn ûndersiken, is it net? It kin liede ta in nije manier om dingen te sjen en oare ynsjenningen te ûntwikkeljen. De meast ûngelokkige ding is dat de gegevens dy't jo sykje binne net gewoanlik maklik beskikber. Jo kinne it fine op it ynternet, mar it kin net wêze yn in formaat dat is downloadable. Yn sa'n gefal kinne jo gebrûk meitsje fan de web-skrappingstechnik om te programmjen en sammelje de gegevens dy't jo nedich binne.

Der binne ferskate skrapping oanwêzigen en programmearrings dy't kinne kinne troch help fan dit proses. Dit artikel sil jo leare hoe't jo de python-taal brûke om in side te skrassen. Jo sille in soad ynsjes krije oer de wurking fan websiden. Jo sille ek begripe hoe't ûntwikkelers gegevens op elke webside strukturearje.

It bêste útgongspunt is om de Anaconda Python Distribution op jo kompjûter te laden en te ynstallearjen. Jo kinne ek guod les opnimme oer de basis fan dizze programmearjende taal. It bêste plak om te setten kin Codecademy wêze, benammen as jo gjin idee hawwe op dit fjild.

Dizze levering sil gebrûk meitsje fan 'e hjoeddeistige lokaasje fan Polk Country foar ynmaten. Wy sille jo leare hoe't jo in Python-skript brûke om in list fan ynmaten te ûntfangen en wat gegevens as de stêd fan ferbliuw en ras foar elke ynteresse te krijen. It hiele skript dat wy jo trochgeane sil opslein wurde en iepenje op GitHub..Dit is ien fan 'e populêre online platfoarms dy't it dielen fan komputerkoades jouwe. De koaden hawwe in lange list fan kommentaar dy't jo helpe kinne foar jo.

By it skreppen fan elke side sil it earste ark sykje foar in webblêder. De measten fan 'e browsers sille brûkers HTML ynspeksje-ark soargje foar assistint by it opheljen fan motor-bay-lûk en it begripen fan' e side-struktuer. De manier wêrop jo tagong hawwe oan elke tool is ôfwikend fan ien browser nei in oar. De haadstêd is lykwols de 'side side boarne', en jo kinne it troch direkt klikke op 'e side direkt.

As jo ​​de HTML-boarne fan 'e side besjen, is it oan te rieden om de details fan' e keppelings yn 'e ynfinityf te tabeljen yn tabellen. De folgjende stap is om in skript te skriuwen dat wy gebrûk meitsje om dizze ynformaasje te ferwiderjen. De twa Pythonpakketten dy't wy yn 'e swiere opheffingproses brûke, binne de prachtige sop en fersiken. Soargje dat jo se ynstallearje foardat jo de koade begjinne.

It web skrapingskript sil trije dingen dwaan. Dit omfetsje it laden fan de listingsiden en it ferwiderjen fan keppelings nei de details siden, elke detail-side te laden en dat te sammeljen, en de útfierbere gegevens ôfdrukke ôfhinklik fan hoe't it filtert wurdt as de stêd fan residinsje en ras. Sa't jo dit begripe, is de folgjende stap om it kodearingsproses te begjinnen troch de Beautiful Soup en Requests te brûken.

Foar it logysk lês de ynteressive lisinsjeide mei de URL requests.get en brûk dan de prachtige sop om it te pûnjen. Dêrnei ferwiderje wy de link nei de detailsiden troch troch te rinnen troch elke rige. Nei it analysearjen fan de yndirekte details wurdt de folgjende stap om it seks, leeftyd, ras, ferwideringsnivo te ferwiderjen, en nammewearden nei it wurdboek. Elke ynfarder sil syn wurdboek krije, en alle wurdboeken sille opnommen wurde oan 'e list fan' e ynmaten. As lêste, roppe oer de races en stedswearden foardat jo úteinlik jo list útje.

December 7, 2017
Semalt: hoe kin de Python brûke om in webside te skrassen?
Reply