Hjælp til webcrawler søges

Software d.  26. april. 2013, skrevet af elvis1984
Vist: 1462 gange.

elvis1984
 
Ny Bruger
Tilføjet:
26-04-2013 13:13:19
Svar/Indlæg:
1/1
Hej
Som overskriften siger så søger hjælp til webcrawler, da jeg ikke ved om der findes noget software derude der kan klare det for mig eller om det skal kodes fra bunden af

Mine krav er følgende:
At jeg selv indtaster hvilke sider den skal crawle eller ud fra nogen bestemte ord

Registrere navnet på hjemmesiden og derefter tjekke navnet ved hvert besøg sådan at den ikke crawler sider der ikke længere findes eller som er lukkede.

Det skal være muligt for mig at selv vælge hvad den skal crawle efter på hver enkelt side sådan at den ikke crawler alt muligt og dermed fylder hurtigt op.Ved godt at det bliver til meget manuelt arbejde men det vil gøre tingene nemmere på længere sigt

Selv bestemme hvor tit den skal crawle sådan at informationer er up to date

Det skal også være muligt at med de indsamle informationer at opbygge en database, for at derefter kunne sortere i det og lave statistik mv. Skal jeg ud og investere i en server evt cloud-løsning??

Det vil være både webshops men også almindelig sider der vil blive crawlet

Formålet er i første omgang forundersøgelse til et større projekt

På forhånd mange tak

Mvh. Elvis1984
@ngler
 
Redaktør
Tilføjet:
27-04-2013 12:46:42
Svar/Indlæg:
4033/364
Der findes sådanne software - men det kan godt tage en krig at crawle en side + at det skal sættes ret godt op så det ikke crawler for dybe links (hvilket kan være en udfordring, da nogle sider embedder andre sider).

hvad er det helt præcist du mener med at crawle efter??? er det ord eller?

Typisk henter den jo bare siderne ned som html - så skal du have noget lokalt som kan indeksere det i en db..

Men er det du mener med statistik?

Du skal dog være opmærksom på at der kan være nogle juridiske og etiske aspekter i din crawling (fx hvis ejeren betaler pr. click / sidevisninger og trafik). + at nogle har filtre imod crawling som typisk giver rigtig mange hits fra samme IP (og hvis den er rigtig aggressiv er der noget DOS attack over den). worst case kan du risikere at imens du laver projektet at du bliver blacklistet og derfor ikke kan blive færdig.

umiddelbart vil jeg nok anbefale at du først kontaktede dem du ønsker at skrive om (jeg formoder projekt = uddannelsesrelateret).


elvis1984
 
Ny Bruger
Tilføjet:
29-04-2013 21:57:58
Svar/Indlæg:
1/1
Hej
Der er 2 slags sider jeg vil gerne crawle

Crawling af webshops:

Skanne siderne en gang om måned i starten bagefter en gang om ugen, uden at overtræde loven om copyright eller forstyrre meget af trafikken på webshops. Hvis siden ikke længere eksistere så skal den give besked. Jeg har noteret mig hvad du har skrevet og vil have det i tankerne inden start.

Crawle produkter på webshoppen efter eget valg : produktnavn, info, pris, billede og evt vare nr. Skal bruges til statistik/oversigt/sammenligning.

Crawling af almindelige sider med indhold:

Skanne siderne en gang om måneden og skal skanne om der er kommet nyt indhold på siden og ikke andet.

Jeg ved ikke så meget om kodning og databaser lige pt men kommer til at lære det på mit hovedforløb efter sommer, derfor vil det være interessant at starte med software program.

Har dog egen domæne med en tilhørende webhotel men det er begrænset hvor meget plads og trafik der er at bruge af

Vil gerne starte ud med en enkelt side som test og se hvordan det går før jeg skalere op

Håber det er til at forstår

På forhånd tak

Mvh. Elvis


MadsAG
 
Elitebruger
Tilføjet:
29-04-2013 23:41:23
Svar/Indlæg:
5421/53
Start med at lære at page scrape.