Wikipedia:De kroeg/Archief/20131228


Data van 20 jaar oud: 90 procent onvindbaar? bewerken

 
Nachtmerrie

The Vast Majority of Raw Data From Old Scientific Studies May Now Be Missing. Dit artikel is niet zo informatief als het zou moeten zijn. Ook de samenvatting van het achterliggende artikel helpt niet veel, maar zet in elk geval de oudste studies in perspectief: van de studies die 20 tot 22 jaar geleden gepubliceerd zijn, is in 90% van de gevallen het achterliggende feitenmateriaal niet meer boven water te krijgen.

Het Smitsonian-artikel wekt de indruk dat de onderzoekers niet alles uit de kast hebben gehaald om de auteurs van de onderzochte studies te achterhalen: als het mailadres niet beschikbaar was en ze via internet niet verder kwamen hebben ze het blijkbaar opgegeven. Toch is het de vraag of het veel uitmaakt: de betreffende auteurs zullen een andere baan hebben of gepensioneerd zijn en ik heb weinig illusies over de kans dat ze gegevens uit hun vorige leven nog kunnen reproduceren.

De wetenschap verouderd echter ook in een rap tempo. Studies van meer dan 20 jaar oud zijn meestal niet relevant meer en voorbijgestreefd door nieuwe studies. Bovendien is er zoiets als peer-review. Als er problemen of fouten in de experiment gegevens zijn die meestal bovenwater gekomen. Als bij een studie na twintig jaar zou blijken dat de gegevens foutief zijn, kan het niet een belangrijk experiment zijn geweest. Er zijn domeinen zoals archeologie waar de oorspronkelijke gegevens (voorwerpen, opgravingen, etc) wel bewaard worden, want nieuwe studies met de brongegeven kunnen vaak nieuwe inzichten geven.Smiley.toerist (overleg) 21 dec 2013 13:59 (CET)[reageren]
Maar voor historisch onderzoek is het wel nuttig om die gegevens te bewaren.__ wester 21 dec 2013 16:15 (CET)[reageren]

Lessen voor de toekomst? bewerken

Die data uit de oudste studies zullen veelal op papier staan, of op diskette (3½ of zelfs die afgrijselijke 5¼-flappen) of zelfs op totaal vergeten media zoals Cd-video en laserdisk, denk bijvoorbeeld aan het Domesday Project, een enorme en schitterende inspanning die op een haar na in de digital dark age onder was gegaan. Wat met dergelijke gegevensdragers gebeurt als je die ouwe zooi zelf moet bewaren weten we allemaal, dus het is begrijpelijk en ook niet strikt onjuist dat het artikel met instemming aangeeft dat uitgevers de gegevens willen bewaren en de bijbehorende schaalvergroting aanprijst.

Toch twijfel ik. Is het de schaalvergroting sec die ons moet redden, of is opslag op internet de redding en is de schaalvergroting bijzaak? Of helpt alleen collectivisering door openbaarmaking? Moeten we aan technische, economische, sociale, politieke of juridisch-morele oplossingen denken? En wat zijn de hedendaagse en toekomstige dreigingen? — bertux 21 dec 2013 01:35 (CET)[reageren]

Is het van de Amerikaanse overheid is het in het publieke domein (uitzonderingen daar gelaten) en kan je het op Wikisource zetten om het zo openbaar te maken. Natuur12 (overleg) 21 dec 2013 10:28 (CET)[reageren]
Dat weet ik, maar het gaat mij om de algemene vraag: hoe gaan wij als technologisch georiënteerde samenleving om met gegevens die de basis van onze inzichten vormen. Misschien had ik niet de vraag moeten stellen wat mogelijke oplossingen zijn, maar wat wijsheid is — bertux 21 dec 2013 16:04 (CET)[reageren]

Ik denk juist dat digitalisering ervoor zal zorgen dat informatie veel sneller verloren gaat. Denk aan foto's. Vroeger liet je die ontwikkelen en lagen die jaren in je kast. Nu staan die op je computer. Tot je een nieuwe computer koopt. Hoeveel digitale documenten op die manier al verloren gegaan zijn ...

Ik zie het echt gebeuren dat er over 100 jaar nauwelijks informatie over onze tijdsperiode zal beschikbaar zijn maar wel hopen van de 'papieren' periode vóór ons (19de eeuw, jaren '50 bv).

Het is goed dat er dingen zijn als The Wayback Machine. Maar het blijft een druppel op een hete plaat. __ wester 21 dec 2013 16:17 (CET)[reageren]

Daarnaast vraag ik me af of ruwe data of geformatteerde gegevensbestanden van nu of uit het verleden in de toekomst ook nog steeds met de programmatuur van dat moment leesbaar gemaakt kunnen worden. Backwards interoperabiliteit geldt doorgaans maar voor een aantal versies en ook verdwijnen er programma's en bestandsformaten raken in onbruik. Ook wordt er veel minder gearchiveerd tegenwoordig. In het verleden ging bij grote bedrijven en overheidsinstellingen alle inkomende en uitgaande post via een secretarie waar het geadministreerd werd, de originele stukken moest de behandelaar na gebruik weer retourneren aan de secretarie waarna het in het archief ging. Tegenwoordig gaat er ontzaggelijk veel via de mail, daar komt doorgaans geen registratie of permanente gestructureerde opslag meer aan te pas. Ik deel dus uw vrees. Spraakverwarring (overleg) 22 dec 2013 14:41 (CET)[reageren]
De vrees is zeker gerechtvaardigd, maar Wester maakt het misschien toch erger dan het is. Er wordt minstens honderd, eerder duizend of tienduizend keer meer informatie vastgelegd dan in het papieren tijdperk, dus per saldo zal er genoeg overblijven, eerder te veel. Bovendien zullen er ook typen informatie behouden blijven die vroeger praktisch altijd verloren gingen. Twitterberichten zoals Naar Febo, broodje bal, zin in waar de meesten van ons van gruwen, zijn een goudmijn voor archeologen.
De moeilijke kwestie is: te bepalen welke informatie zo belangrijk is, dat we die niet aan de grillen van het toeval mogen prijsgeven. Zijn dat de soortbeschrijvingen die in de aangehaalde studie onderzocht werden? Misschien, maar voor hetzelfde geld lachen toekomstige biologen erom aangezien ze alleen nog maar DNA-sequenties accepteren als basis voor een soortbeschrijving.
Het lijkt me heel goed denkbaar dat ze ons in de toekomst gaan vervloeken omdat we geen nauwgezette beschrijving achterlaten van alle apparatuur en bestandstypen die we gebruiken. Of ze vinden juist dat we te veel troep (info) achtergelaten hebben, die ze vanwege steeds nijpendere beperkingen qua energie- en grondstofgebruik toch niet kunnen doorzoeken. Voorlopig gok ik op het documenteren van hedendaagse informatietoegang als onze belangrijkste taak — bertux 22 dec 2013 17:06 (CET)[reageren]
Vroeger verdween er ook erg veel papier in de papierbak. Zoals nu digitale documenten verdwijnen. Daar is niets mis mee. Volgens mij zijn dit soort berichten van mensen die het óf niet helemaal overzien, óf die een lekker dramatisch stukje in een tijdschrift mogen vullen. En van beide smaken moeten wij ons niet teveel aantrekken. En wie bang is dat Wikipedia ooit verloren gaat? Print het dan allemaal uit, want papier bewaart bewezen het langst (tot nu toe dan). Maar zelf denk ik dat dat overkill is. Maar wie ben ik? ed0verleg 23 dec 2013 02:36 (CET)[reageren]