Back to Question Center
0

Web skrapping mei semint eksperts

1 answers:

Web skrapping, ek wol websteuning neamd, is in technyk brûkt útjeften gegevens fan websiden. Webnota-software kin tagong wêze ta in web direkt mei HTTP of in webbrowser. Hoewol it proses mooglik maklik ynfierd wurde troch in software-brûker, sil de technyk meastal in automatisearre proses ynfierd meitsje mei in web sprekker of bot.

Webskripsje is in proses as strukturearre gegevens kopieare wurde fan 'e webside nei in lokale databank foar resinsjes en opheljen. It giet om it opheljen fan in webside en it útfieren fan syn ynhâld. De ynhâld fan 'e side kin parsed, socht, restrukturearre en har gegevens kopiearre wurde yn in lokale opslachapparaat.

Websiden wurde normaal boud út tekst-basearre markearre talen lykas XHTML en HTML, dy't beide in soad brûkte gegevens yn 'e foarm fan tekst befetsje. Mar in soad fan dizze websides binne ûntwurpen foar minsklike brûkers en net foar automatisearre gebrûk. Dit is de reden wêrom't skriklike software makke is.

Der binne in soad techniken dy't tapast wurde kinne foar effektive webside. Guon fan harren binne hjirûnder útwurke:

1. Human Kopy-en-paste

Fan tiid oant no kin sels it bêste web-skrappelwerk s net ferfange de krekte en effisjinsje fan in minsklike hantlieding kopie-en-paste..Dit is meast fan tapassing yn sitewaasjes wêr't websteeën barrienskippen opmeitsje om masineautomaat te foarkommen.

2. Text Pattern Matching

Dit is in frij ienfâldige, mar sterke oanpak dy't brûkt wurdt om data út websiden te ûntstean. It kin basearre wurde op it UNIX grep kommando of gewoan in reguliere ekspresje fan in beskreaune programmearstaal, bygelyks Python of Perl.

3. HTTP-programmearring

HTTP-programmearring kin brûkt wurde foar sawol statyske en dynamyske websiden. De gegevens wurde bepaald troch it ferstjoeren fan HTTP-fersiken oan in remote web-tsjinner by it brûken fan socketprogramming.

4. HTML Parsing

In protte websiden tenduerje in wiidweidige kolleksje fan siden dy't dynamysk ûntfongen binne fan in ûnderlizzende struktuerboarne lykas in database. Hjiryn binne gegevens dy't ta in lytse kategory hearre sille opdield wurde op ferlykbere siden. Yn HTML-parsing fynt in programma algemien dat sa'n sjabloan yn in bepaalde boarne fan ynformaasje, syn ynhiem opnij en oersetten dêrnei yn in affiliate-form, neamd as wrapper.

5. DOM parsing

Yn dizze technyk wurdt in programma ynbêde yn in folsleine webblêder lykas Mozilla Firefox of de Internet Explorer om dynamyske ynhâld te ûntfangen troch it client-side-skript. Dizze browsers kinne ek web siden plesierje yn in DOM-beam ôfhinklik fan de programma's dy't dielen fan 'e siden te ûntfangen.

6. Semantyske annotaasje-erkenning

De siden dy't jo bepale wolle, kinne semantyske markupen en annotaasjes of metadaten bepale, dy't brûkt wurde om spesifike data-snippets te finen. As dizze annotaasjes yn 'e siden ynsteld binne, kin dizze technyk as in spesjale case fan DOM-analysearjen besjoen wurde. Dizze annotaasje kin ek organisearre wurde yn in syntaktyske lagen, en dan bewarre en beheare en apart fan 'e websiden. It jout skrappers om gegevens skema as kommando's út dizze lizze foardat it de siden skrappt.

December 6, 2017
Web skrapping mei semint eksperts
Reply