MENU CLOSE

IT・科学

鹿キャラマニアさんからの取材リクエスト

国立国会図書館が収集したウェブサイトが1万件を超えたけど、キーワード検索でNOT検索はできひんの?



国会図書館ウェブ保存事業、「魚拓」と違う資料価値 1万件を可視化

国立国会図書館が進めている「インターネット資料収集保存(WARP)」で集めた資料が1万件を超えました。「魚拓」とは違った価値は、研究者らから注目されています。

国立国会図書館関西館にある国内最大の自動書庫
国立国会図書館関西館にある国内最大の自動書庫 出典: 朝日新聞

目次

取材リクエスト内容

国立国会図書館が収集したウェブサイトが1万件を超えたそうですが、キーワード検索でNOT検索はできひんの?例えば、「高の原」で検索しようとすると、UR賃貸住宅と平城遷都1300年記念プレミアム商品券が延々とヒットします。 鹿キャラマニア

記者がお答えします!

 国立国会図書館が進めている「インターネット資料収集保存(WARP)」で集めた資料が1万件を超えました。これまでに収集したタイトルをグラフィックにして可視化しました。発信者に許諾を得た上での資料には、「魚拓」とは違った価値があり、研究者らから注目されています。一方で、図書館に行かないと見られない公開方法や、検索機能などでは、クリアするべき課題もあるようです。

【PR】手話ってすごい!小学生のころの原体験から大学生で手話通訳士に合格
関連リンク:国立国会図書館インターネット資料収集保存事業

時期による変化も見える化

 「WARP」は、2002年に始まりました。紙の書籍や資料と違って更新されると元の情報が上書きされてなくなってしまうウェブサイトを、将来にわたって参照できるように保存をしています。

 省庁などの国の機関や独立行政法人、国立大学法人のウェブサイトについて、自動収集プログラムを使ってデータを国立国会図書館のシステム内に保存しています。サイトは収集した時点の状態で見ることができます。同じサイトでも時期による変化を調べることもできます。

 政党や東日本大震災に関連したサイトなど、許諾が取れたものについても個別に収集しています。

国会図書館関西館の書架
国会図書館関西館の書架 出典: 朝日新聞

タイトル数、国交省が突出

 2015年10月には、収集したサイトが1万件を超えました。ファイル数は約36億ファイル、データ容量は約630テラバイトに達しています。

 国立国会図書館では、1万件突破に合わせてこれまでに保存したサイトを可視化したインフォグラフィックを公開しました。収集したサイトのタイトルの数が円の大きさで表現されています。

 全体では国土交通省の円が大きくなっています。国交省は全国に出先機関があるため、タイトル数が多くなったようです。大学の中では東京大が目立ちます。都道府県では東京が大きいほか、福島県も人口規模に比べると存在感があります。円にして並べることで、それぞれの機関のウェブでの発信力の特徴が可視化されています。

可視化された1万件のタイトル
可視化された1万件のタイトル 出典:http://warp.da.ndl.go.jp/contents/reccommend/collection/bubble.html

ネットなのに館内利用、「not」検索も不可

 公的機関による収集という重要な取り組みですが、課題もあります。収集できるのが許諾を得られたものだけなので、「魚拓」に比べると利用できるデータは格段に少なくなります。

 公開方法も原則、国立国会図書館の館内(東京本館、関西館)に限られます。一部、発信者の許可が取れたものについてはインターネットで公開していますが、数が少ないのが現状です。

国立国会図書館
国立国会図書館 出典: 朝日新聞

 また検索についても「not」の条件設定ができないため、同じ単語を含む資料のタイトルが大量にヒットしてしまいます。検索機能について国立国会図書館は「予算の都合で今の形になりました…」と説明しています。

関連記事

PICKUP PR

PR記事

新着記事

CLOSE

Q 取材リクエストする

取材にご協力頂ける場合はメールアドレスをご記入ください
編集部からご連絡させていただくことがございます