40 jaar informatiegebruik

informatie vinden en selecteren in tijden van informatieovervloed Eric Sieverts Universiteitsbibliotheek Utrecht sector Innovatie & Ontwikkeling / Opleiding Media, informatie & communicatie Hogeschool van Amsterdam

1948: start of the information age

in 1948 bij Bell Labs de transistor Shannon: theory of information - the "bit"

informatiegroei informatie of data ? & informatieinflatie © Foam Amsterdam

overhead sheet ca. 1985 bronnen: Derek de Solla Price Gale Directory Ulrich's ...

al 260 jaar verdubbelt jaarlijks aantal wetenschappelijke artikelen elke 14 jaar en aantal tijdschriften ook zo ongeveer

na (exponentiële) groei met factor 100.000 neiging tot verzadiging? NRC 12 maart 2011

exponentiële groei blijkt na 280 jaar toch nog niet afgevlakt wetenschappers raken niet op? meer in china en india nog meer "publish or perish" … . ?

"what next" voor wetenschappelijk publiceren ? ook blogs ook tweets klassieke artikelen ontleed / opgesplitst tot " nanopublicaties ": afzonderlijke beweringen die beschreven worden als RDF-tripels DNA variant NG_000007.3:g.70628G>A (Subject) has a frequency (Predicate) of 0.25% (Object). The assertion holds for the Sardinian population Provenance includes authors of the article ( Giardine et. al. ), the date when the nanopublication was created, et cetera. voorbeeld nog meer "items"

Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011) doi:10.1038/ng0411-281

hoeveel doorzoekt een webzoekmachine? een antwoord uit 1996!

Dutch Home Page najaar 1993 Dutch Home Page zomer 1994

hoeveel doorzoekt een webzoekmachine? latere antwoorden gegevens uit: 1998

14 jaar lang verdubbelde elke 12 maanden het aantal webpagina's in grootste zoekmachine(s) miljoenen webpagina's content in hosts als Dialog of LexisNexis hoeveel doorzoekt een webzoekmachine? latere antwoorden gegevens vooral uit: 1998 ?

miljoenen webpagina's in zoekmachines 14 jaar lang verdubbelde elke 12 maanden het aantal webpagina's in grootste zoekmachine(s) wetenschappelijke artikelen per jaar

informatieinflatie 2000 Hall & Varian: gezamenlijk produceren we in een jaar 1,5 exabyte (miljard gigabyte) informatie (is dat informatie of zijn het data?)

informatieinflatie ongeveer elk jaar verdubbelt de hoeveelheid bytes die we produceren is dat groei of inflatie? TXT documentje met mijn tekst: 50 kB videoregistratie van mijn lezing: 500 MB dezelfde informatie(!?) maar 10.000 x zoveel data

informatieinflatie ongeveer elk jaar verdubbelt de hoeveelheid bytes die we produceren is dat groei of inflatie? berichten op het web worden 100-voudig gerepliceerd, herblogd en geretweet van alles maken we ongecoördineerd back-ups ...

YouTube groeit met 30 uur per minuut

10 51 atomen 2110: ~10 51 bits 2010: ~10 22 bits 2000: ~10 19 bits (1 exabyte) our yearly data production ?? exponentiële groei blijft voortduren ?

5 MB harde schijf in 1956 64 GB in 2011

online zoeken: methoden, technieken, systemen 1980 - 2012 ©

zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….) basis: booleaanse building block methode functionaliteit zeer stabiel (conservatief?) databases bij host Dialog nog vrijwel net zo te bevragen als 30 jaar geleden (als je dat wilt) … . OR OR AND AND tunnels verkeerstunnels autotunnels spoortunnels .... lang lengte ... veiligheid veilig onveiligheid beveiliging veiligheidsmaatregelen .... tunnels lange veiligheid

zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….) … . zeer exacte zoekresultaten (aantallen) ook modern uitziende interfaces nog niet erg gebruiksvriendelijk automatisch "vervangend zoeken" ten behoeve van gecontroleerd vocabulair (thesaurus) nog niet heel algemeen (wel bij PubMed) automatisch "generiek zoeken" (zoekvraag uitbreiden met specifiekere begrippen - uit thesaurus) nog niet heel algemeen (wel bij PubMed) willen aanbieders hiermee gebruikers blijven trekken, dan moet het er net zo makkelijk (& aantrekkelijk?) uitzien als het net zo makkelijk lijken als het een "experience" opleveren bij aanbieders van bibliografische databases is dat allemaal (nog) meestal niet het geval

webzoekmachines introduceerden best-match zoeken (i.p.v. booleaans) (ca. 1997) van "most of the terms" "all of the terms" (ca. 1998) geven suggesties voor alternatieve zoektermen (op basis van statistiek), vooral voor inperken van zoekactie, soms (AltaVista) ook geclusterd (al deden online hosts ESA en Dialog anno 1985 al net zo iets, met ZOOM - of RANK -commando) … .

webzoekmachines .... (1998) introduceert link-statistiek als ranking parameter (2003-2008) suggesties voor extra termen verdwijnen weer (wel nog bij gespecialiseerde zoeksystemen) (2010) soort van verfijnen komt terug in de vorm van facetten (maar databases als Scopus waren daar al veel eerder mee) vermelde aantallen zoekresultaten kloppen van geen kant doordat je zoveel vindt, vind je ook steeds meer niet (niet > 1000 ! ook niet bij Google Scholar) ....

1 resultaten van zoekvraag uit databases zelfde zoekvraag in Google Scholar

1 resultaten van zoekvraag uit databases hoeveel daarvan met zelfde vraag niet uit Google Scholar komt

6 resultaten van zoekvraag uit databases hoeveel daarvan met zelfde vraag niet uit Google Scholar komt

webzoekmachines … . verbeteren zoekvraag door "did you mean:" verbreden door automatisch zoeken op woordstammen verbreden door automatisch zoeken op synoniemen, samenstellingen, enz. verbeteren zoekvraag zonder nog te vragen "did you mean:" niet zoeken wat je vraagt (de ingetikte zoekwoorden), maar wat (zoekmachine denkt dat) je bedoelt: "user intent" ....

webzoekmachines … . verbeteren zoekvraag door "did you mean:" verbreden door automatisch zoeken op woordstammen verbreden door automatisch zoeken op synoniemen, samenstellingen, enz. verbeteren zoekvraag zonder nog te vragen "did you mean:" niet zoeken wat je vraagt (de ingetikte zoekwoorden), maar wat (zoekmachine denkt dat) je bedoelt: "user intent" (2011) introduceert "Verbatim" om toch weer "woordelijk" te laten zoeken ....

zoeken met minder woordvarianten levert veel meer op ???

laat dan die 14187 andere ook nog maar eens zien !!

webzoekmachines … . is benchmark geworden voor (uiterlijk van) zoeksystemen MAAR: syntax voor geavanceerde functies van Google, Bing, Blekko, DuckDuckGo, ... nog net zo ingewikkeld als Dialog anno 1980 EN: wekelijks verschijnen en verdwijnen functies en mogelijkheden (vooral bij Google) bij Google hangt zoekresultaat af van welke browser je gebruikt de landenversie die je gebruikt of je ingelogd bent of niet of je Google+ gebruiker bent ....

Disclaimer: the content of these slides was correct on November 24 th 14.59 GMT, using google.co.uk via Chrome, and signed into one of my Google accounts. Of course, a lot of it will have changed by now!! 28/01/12 www.rba.co.uk Karen Blakeman Online Information 2011

webzoekmachines … . personalisatie van (ranking van) zoekresultaat op basis van eerder zoekgedrag je "sociale kring" meer algemeen gaan we: van zoeken filteren (via sociale media) de "filter bubble"

verdringen sociale media (twitter, facebook, …) zoekmachines als informatiebron ? als je op Twitter maar de juiste mensen volgt blijf je wel op de hoogte van alle nieuwtjes zonder nog zoekacties te hoeven doen

in semantisch web wordt van "alles" betekenis vastgelegd

door standaard semantiek kan Google een receptenzoekmachine maken

standaardisatie van eigenschappen/kenmerken in beschrijving van recepten met "microformats" / "rich snippets markup"

the "linked open data cloud" - september 2011 - 31 billion data online by standardisation of dataformats and metadata, computers can "understand" the meaning of these data & use them

literatuuronderzoek bibliografieën, databases, web 1972 - 2012

1980 verbinding met "The Cloud" anno 1980 datacom-kosten (PTT) : ca f 0,30 / kB

lycos 1994 de eerste "echte" webzoekmachine: bijna 1,5 miljoen pagina's altavista 1996 de nieuwste grootste: ruim 30 miljoen pagina's 1995

2000 - 2010 discovery tool avant la lettre

2011 year of the webscale discovery tools

tot slot nog een interessante vraag waarvan ik zelf niet meteen weet of dat al is uitgezocht wat de vraagstelling precies zou moeten zijn hoe je dat zou moeten uitzoeken hoe je een antwoord zou kunnen kwantificeren hoe sterk hebben die betere & snellere beschikbaarheid & vindbaarheid & communiceerbaarheid van informatie van de laatste 30 jaar bijgedragen aan snellere voortgang en betere kwaliteit van de wetenschap ? (en ook van ander dagelijks werk ....) of is er misschien helemaal geen (positieve) invloed geweest ?

werden die betere vindbaarheid (et cetera) volledig gecompenseerd door die informatieoverdaad ? de "wet van Wagenaar" ? gebrek aan informatievaardigheid ? .... ? "De wet van Wagenaar" column in: Informatie Professional december 1997

nog vragen ? foto: Jan-Jaap Heine

40 jaar informatiegebruik

More Related Content

Similar to 40 jaar informatiegebruik (20)

More from Eric Sieverts (15)

40 jaar informatiegebruik