Bigcrawler

BIGCRAWLER er hjertet i virksomheden og benyttes i mange af vores services. BIGCRAWLER er et egenudviklet system til at indhente og udtrække data fra mange forskellige websider.

BIGCRAWLER benytter de nyeste teknikker inden for Big Data til at indhente data og udtrække informationer fra data.

BIGCRAWLER kan hente data fra både normale statiske sider, samt dynamiske sider der loades asynkront, som traditionelle crawlere ikke kan hente indhold fra. På den måde er det muligt at skaffe informationer, der er uden for traditionelle crawleres rækkevidde. BIGCRAWLER har også mulighed for at udføre hensynsfuld crawling, der nedsætter belastningen af den enkelte webside, eller planlægger datahøsten til et tidspunkt uden for spidsbelastning, hvor websiden har flere ressourcer til at klare den øgede belastning. En anden funktion BIGCRAWLER har, er udeladt crawling. Hvis der er visse områder af en webside der er irrelevante at hente, kan BIGCRAWLER indstilles til at springe disse områder over. Dette gør datahøsten hurtigere og mere effektiv.

BIGCRAWLER arbejder døgnet rundt og kan indhente data fra et stort antal kilder samtidigt. BIGCRAWLER udtrækker data fra de hentede sider vha. kunstig intelligens og mønstergenkendelse. I modsætning til andre typer crawlere, behøver BIGCRAWLER ikke at kende sidens struktur for at udtrække data fra siden, da BIGCRAWLER optrænes til at genkende de rigtige data på tværs af forskellige sider inden for mange forskellige domæner. Traditionelle crawlere kræver at man opbygger en ”opskrift” for hver type af side for hver kilde, for at udtrække informationerne, hvilket kræver meget manuelt arbejde. BIGCRAWLER skal, i modsætning til traditionelle crawlere, kun gives nogle enkelte eksempler på sider, og så optræner den selv viden om hvordan informationerne skal udtrækkes.

	Traditionelle crawlere	BIGCRAWLER
Antal sider af gangen	En	Mange
Asynkrone sider
Hensynsfuld datahøst
Udelad områder
Informationsudtræk opsætning	Manuelt	Intelligent

Hvad er en crawler?

En crawler eller en datahøster er et program der downloader websider. Programmet starter på en angiven adresse og besøger derefter alle links på siden. De besøgte links downloades og de nye siders links besøges. Dette foregår indtil alle sider på domænet er hentet, eller programmet har nået en forudbestemt dybde.

Hvad er informationsudtræk?

Informationsudtræk er, når et program klipper relevant information ud af en downloaded side. Hvis man f.eks. har downloaded en siden der indeholder en tabel med nogle informationer man gerne vil have udtrukket, skal programmet klippe indholdet af tabellen ud, mens alle de andre oplysninger der er på siden er irrelevant og derfor kan udelades. Informationsudtrækning er den svære del af automatisk datahøst, da mange sider ser helt forskellige ud, og de forskellige måder siderne er stille op giver i traditionelle crawlere anledning til mange fejl.