IT・科学
鹿キャラマニアさんからの取材リクエスト
国立国会図書館が収集したウェブサイトが1万件を超えたけど、キーワード検索でNOT検索はできひんの?
国会図書館ウェブ保存事業、「魚拓」と違う資料価値 1万件を可視化
国立国会図書館が進めている「インターネット資料収集保存(WARP)」で集めた資料が1万件を超えました。「魚拓」とは違った価値は、研究者らから注目されています。
IT・科学
国立国会図書館が収集したウェブサイトが1万件を超えたけど、キーワード検索でNOT検索はできひんの?
国立国会図書館が進めている「インターネット資料収集保存(WARP)」で集めた資料が1万件を超えました。「魚拓」とは違った価値は、研究者らから注目されています。
国立国会図書館が収集したウェブサイトが1万件を超えたそうですが、キーワード検索でNOT検索はできひんの?例えば、「高の原」で検索しようとすると、UR賃貸住宅と平城遷都1300年記念プレミアム商品券が延々とヒットします。 鹿キャラマニア
国立国会図書館が進めている「インターネット資料収集保存(WARP)」で集めた資料が1万件を超えました。これまでに収集したタイトルをグラフィックにして可視化しました。発信者に許諾を得た上での資料には、「魚拓」とは違った価値があり、研究者らから注目されています。一方で、図書館に行かないと見られない公開方法や、検索機能などでは、クリアするべき課題もあるようです。
「WARP」は、2002年に始まりました。紙の書籍や資料と違って更新されると元の情報が上書きされてなくなってしまうウェブサイトを、将来にわたって参照できるように保存をしています。
省庁などの国の機関や独立行政法人、国立大学法人のウェブサイトについて、自動収集プログラムを使ってデータを国立国会図書館のシステム内に保存しています。サイトは収集した時点の状態で見ることができます。同じサイトでも時期による変化を調べることもできます。
政党や東日本大震災に関連したサイトなど、許諾が取れたものについても個別に収集しています。
2015年10月には、収集したサイトが1万件を超えました。ファイル数は約36億ファイル、データ容量は約630テラバイトに達しています。
国立国会図書館では、1万件突破に合わせてこれまでに保存したサイトを可視化したインフォグラフィックを公開しました。収集したサイトのタイトルの数が円の大きさで表現されています。
全体では国土交通省の円が大きくなっています。国交省は全国に出先機関があるため、タイトル数が多くなったようです。大学の中では東京大が目立ちます。都道府県では東京が大きいほか、福島県も人口規模に比べると存在感があります。円にして並べることで、それぞれの機関のウェブでの発信力の特徴が可視化されています。
公的機関による収集という重要な取り組みですが、課題もあります。収集できるのが許諾を得られたものだけなので、「魚拓」に比べると利用できるデータは格段に少なくなります。
公開方法も原則、国立国会図書館の館内(東京本館、関西館)に限られます。一部、発信者の許可が取れたものについてはインターネットで公開していますが、数が少ないのが現状です。
また検索についても「not」の条件設定ができないため、同じ単語を含む資料のタイトルが大量にヒットしてしまいます。検索機能について国立国会図書館は「予算の都合で今の形になりました…」と説明しています。
1/32枚