Back to Question Center
0

Semalt Islamabad Expert - Wat jo witte wolle oer in webkriveler

1 answers:

A sykmasine crawler is in automatisearre applikaasje, skript of programma dy't oer it World Wide Web yn in programmearre manier giet om aktualisearre ynformaasje foar in spesifike sykmasjine te jaan. Hawwe jo echt geweldich wêrom't jo ferskillende sets fan resultaten krije, elke kear as jo de deselde keywords oantsjutte op Bing of Google? It is om't elke minuten alle websteeën oanbean wurde. En sa't se opnommen binne, binne webkrollers oer de nije websiden.

Michael Brown, in liedende saakkundige fan Semalt , fertelt dat webkrollers, ek wol automatysk yndeksers en web spiders bekend binne, wurkje op ferskillende algoritme foar ferskate sykmasines. It proses fan web crawling begjint mei de identifikaasje fan nije URL's dy't wurde besocht wurde om't se krekt oanbean binne of om't guon fan har websiden frisse ynhâld hawwe. Dizze identifisearre URL-adressen binne bekend as seamen yn sykmasine termyn.

Dizze URL-adressen wurde úteinlik besocht en op 'e nij te besykjen ôfhinklik fan hoe faak de nije ynhâld op harren oanbean wurdt en de beliedslinen dy't de spinnen leverje. Tidens de besite binne alle hyperlinks op elke fan 'e websiden identifisearre en tafoege oan de list. Op dit stuit is it wichtich om dúdlik te meitsjen dat ferskillende sykmasjines ferskate algoritme en belied brûke. Dêrom wurde ferskillen fan de Google-resultaten en Bing-resultaten foar deselde kaaiwurden sels ek as der in soad oerienkomsten binne.

Webkwollers meitsje geweldige banen dy't sykmasines op 't heden hâlde. Yn feite is har baan tige drege om fan trije redenen ûnderen.

1. It volumint fan websiden op ynternet by elke opjûne tiid. Jo witte dat der ferskate miljoenen plakken binne op 'e webside en elke dei wurde meardere lansearre. Hoe mear it volume fan 'e webside yn' e net, de hurder it is foar crawlers om op 'e tyd te wêzen.

2..It paad wêr't websiden begjinne. Hawwe jo in idee hoefolle nije websiden tagelyk lansearre wurde?

3. De frekwinsje wêrop dizze ynhâld sels feroaret op besteande websiden en it tafoegjen fan dynamyske siden.

Dit binne de trije problemen dy't it makliker meitsje foar web spiders om te aktualisearjen. Ynstee fan websiden op 'e earste-foarst-basearre basis, kriget in protte web spiders prioriteiten fan websiden en hyperlinks. De priorisearring is basearre op gewoan 4 algemiene sykmasjinearrollenbelied.

1. It seleksebelied wurdt brûkt om te selektearjen hokker siden te laden binne foar it krijjen earst.

2. It beliedstype fan wer opnij wurdt brûkt foar it bepalen fan hoe en hoe faak websteeën werjaan binne foar mooglike feroaringen.

3. It parallarisaasjebelied wurdt brûkt om koördinearjen te wêzen as krollers ferwurke wurde foar in flugge dekking fan alle siedingen.

4. It politenisjebelied wurdt brûkt om te bestimmen hoe't URLs krûpt wurde om de overladen fan websiden te foarkommen.

Foar flugge en krekte dekking fan sied, moat krollers in geweldige krûkstechnyk hawwe dy't it priorisearjen en fergriemjen fan websiden beheint, en se moatte ek tige optimisearre arsjitekt hawwe. Dizze twa sille it makliker meitsje om se yn in pear wike hûnderten miljoenen websiden te crawljen en te downloaden.

Yn in ideale sitewaasje wurdt elke webside fan 'e World Wide Web ôfdrukt en troch in multydefere downloader nommen, wêrnei't de websiden of URL-adressen wacht wurde foardat se troch in bepaalde scheduler foar prioriteit trochgean. De priorisearre URL-adressen binne werop troch multydefearde downloader, sadat har metadata en tekst opslein wurde foar in goeie krolling.

Op dit stuit binne der ferskate sykmasjinespinnen of krollers. De ien fan Google brûkt de Google Crawler. Sûnder web spiders, resultaat fan motors fan sykmasjines sil dan nul resultaten of ferâldere ynhâld weromfiere, om't nije websiden nea opnommen wurde. Yn feite sil der neat wêze as online ûndersyk.

November 29, 2017
Semalt Islamabad Expert - Wat jo witte wolle oer in webkriveler
Reply