Semalt akcijas - vienkāršs veids, kā iegūt informāciju no vietnēm

Tīmekļa nokasīšana ir populāra metode satura iegūšanai no vietnēm. Īpaši ieprogrammēts algoritms nonāk vietnes galvenajā lapā un sāk sekot visām iekšējām saitēm, saliekot jūsu norādītos divs interjerus. Rezultātā - gatavs CSV fails ar visu nepieciešamo informāciju, kas atrodas stingrā secībā. Iegūto CSV var izmantot nākotnē, veidojot gandrīz unikālu saturu. Un vispār, kā tabula, šādiem datiem ir liela vērtība. Iedomājieties, ka viss būvniecības veikala produktu saraksts ir parādīts tabulā. Turklāt katram produktam, katram produkta veidam un zīmolam ir aizpildīti visi lauki un īpašības. Ikviens copywriters, kas strādā tiešsaistes veikalā, labprāt iegūtu šādu CSV failu.

Ir daudz rīku datu iegūšanai no vietnēm vai tīmekļa nokasīšanas, un neuztraucieties, ja neesat pazīstams ar nevienu programmēšanas valodu, šajā rakstā es parādīšu vienu no vienkāršākajiem veidiem - izmantojot Scrapinghub.

Pirmkārt, dodieties uz scrapinghub.com, reģistrējieties un piesakieties.

Nākamo soli par jūsu organizāciju var vienkārši izlaist.

Tad jūs nokļūsit savā profilā. Jums jāizveido projekts.

Šeit jums jāizvēlas algoritms (mēs izmantosim algoritmu "Portia") un jādod projekta nosaukums. Sauksim to kaut kā neparastu. Piemēram, "111".

Tagad mēs nokļūstam algoritma darba telpā, kur jums jāievada tās vietnes URL, no kuras vēlaties iegūt datus. Pēc tam noklikšķiniet uz "Jauns zirneklis".

Mēs apmeklēsim lapu, kas kalpos kā piemērs. Adrese tiek atjaunināta galvenē. Noklikšķiniet uz "Anotēt šo lapu".

Pārvietojiet peles kursoru pa labi, lai parādītu izvēlni. Šeit mēs esam ieinteresēti cilnē "Izvilkts vienums", kur jums jānoklikšķina uz "Rediģēt vienumus".

Tomēr tiek parādīts tukšs mūsu lauku saraksts. Noklikšķiniet uz "+ lauks".

Šeit viss ir vienkārši: jums ir jāizveido lauku saraksts. Katram vienumam jums jāievada nosaukums (šajā gadījumā nosaukums un saturs), jānorāda, vai šis lauks ir nepieciešams ("Nepieciešams") un vai tas var mainīties ("Mainīgs"). Ja jūs norādāt, ka vienums ir "nepieciešams", algoritms vienkārši izlaidīs lapas, kurās tas nevarēs aizpildīt šo lauku. Ja tas nav atzīmēts ar karodziņu, process var ilgt mūžīgi.

Tagad vienkārši noklikšķiniet uz mums nepieciešamā lauka un norādiet, kas tas ir:

Gatavs? Pēc tam vietnes galvenē noklikšķiniet uz "Saglabāt paraugu". Pēc tam jūs varat atgriezties darba telpā. Tagad algoritms zina, kā kaut ko iegūt, mums tam ir jāiestata uzdevums. Lai to izdarītu, noklikšķiniet uz “Publicēt izmaiņas”.

Iet uz uzdevumu dēļa, noklikšķiniet uz "Palaist zirnekli". Izvēlieties vietni, prioritāti un noklikšķiniet uz “Palaist”.

Tagad notiek kasīšana. Tā ātrumu parāda, rādot kursoru uz nosūtīto pieprasījumu skaitu:

Stīgu sagatavošanas ātrums CSV - norādot uz citu numuru.

Lai skatītu jau izgatavotu priekšmetu sarakstu, vienkārši noklikšķiniet uz šī numura. Jūs redzēsit kaut ko līdzīgu:

Kad tas ir pabeigts, rezultātu var saglabāt, noklikšķinot uz šīs pogas:

Tieši tā! Tagad jūs varat iegūt informāciju no vietnēm bez pieredzes programmēšanā.