Als journalist is het belangrijk dat je kan betrouwen op archieven. En op het internet zijn er twee belangrijke spelers die trachten een internetarchief uit te bouwen: Wikipedia en Archive.org. Maar ook daar dagen problemen op…

Meer dan 9 miljoen gebroken links op Wikipedia “gered”

Het gebeurt overal: in een artikel verwijs je naar een website, maar die houdt op te bestaan. Of je verwijst naar een artikel op een andere website, en dat artikel verdwijnt – of de site wordt geherstructureerd en het artikel bestaat nog wel, maar de link ernaar is niet meer geldig.

Een euvel dat het archief van het internet dreigt te ondermijnen. Ook bij sites zoals Wikipedia, de encyclopedie van het internet, waar naar geschiedkundig belangrijke artikels verwezen wordt.

Daarom is dit een heel positief bericht: Wikipedia zal samenwerken met Internet Archive. Dat is een organisatie die een archief tracht te creëren van alle mogelijke content. Van audio, zoals oude radioprogramma’s – historische uitzendingen en hoorspelen die toen uitgezonden werden. Van films en documentaires. Maar ook van content op het internet.

Daarvoor heeft het de WayBack Machine bedacht, waar momentopnames te vinden zijn van websites, doorheen de jaren. Tik je de naam van een website in deze machine in, dan zal je een historische terugblik kunnen zien van de content in de voorbije jaren.

Concreet zal de samenwerking tussen Internet Archive en Wikipedia ervoor zorgen dat gebroken links automatisch gaan doorverwijzen naar links van die pagina op de Wayback Machine. Al meer dan 5 jaar werkt Internet Archive eraan om zo goed als elke link, waarnaar verwezen wordt op 300 Wikipedia sites, te archiveren, wanneer die aan de artikels toegevoegd worden of gewijzigd worden. En dat betekent 200 miljoen URL’s per week.

Het een en ander is enkel mogelijk door het inzetten van een software robot. Hierdoor werden al bijna 6 miljoen externe referenties “gered”, die anders enkel naar een 404 pagina verwezen hadden. Naast die robot hebben de medewerkers van Wikipedia zelf meer dan 3 miljoen links laten doorverwijzen naar de Wayback Machine of andere diensten waar webarchieven aangeboden worden.

Een applaus is hier wel op zijn plaats!

TIP: hoe werken met WayBack Machine?

Ga naar de website https://archive.org/web, en tik de naam in van een bepaalde website. Je krijgt nu een afbeelding waarin de tijdstippen vermeld werden waarop de website gearchiveerd werd. Klik een van die datums aan, en bekijk de website.

https://archive.org/web/

Over de auteur

Verwant

Geef commentaar