IT・科学
写真1枚の保存に1000円・消えるURL…震災アーカイブの「切実な課題」
東日本大震災は、インターネットが本格的な生活インフラになった時代に起きた大災害でした。ネットの世界には、年月が経った今もアーカイブという形で当時の記録が残っています。一方で、5年間で6割のサイトURLが変わるなど、デジタルの情報でも様々な理由でデータはアクセスできなくなっています。そんな中、ウェブサイトの保存を進める国立国会図書館のサイトには「消えた」情報を求める人からのアクセスが続いています。
インターネット資料の収集保存事業(WARP)を進めている国立国会図書館は、2010年から2014年に収集した国の機関のサイトを対象に、各年に存在したURLが2015年にどれぐらい残っているのかを調べました。
URLで残っていたのは、2014年は86%、2013年は69%、2012年は60%、2011年は47%、2010年は40%という結果になりました。同一内容が存在するかという点についても、年をさかのぼるにつれて同じ傾向で低下しました。5年間で6割のサイトの内容が変化または消えてしまったと考えられるそうです。
国会図書館のWARPで保存されているサイトの中で、最もアクセスが多いページを、WARPの月別ランキングをもとに調べたところ、1位は「東京電力福島原子力発電所事故調査委員会(国会事故調)」でした。2位とは2倍以上の差がつきました。
民間有識者10人からなる国会事故調は、2012年7月に衆参両院議長に報告書を提出しました。報告書はホームページでも掲載されましたが、当時の事故調のURLを打ち込んでも現在見ることはできません。
一方、国会図書館のWARPの月別のアクセス数をみると、ほぼ毎月1位となっており、ニーズの高さがみてとれます。
国会図書館では、WARP以外にも、東日本大震災に関するデジタルデータを一元的に検索・活用できるポータルサイト「国立国会図書館東日本大震災アーカイブ(ひなぎく)」を2013年3月に公開しています。
震災後、多くの自治体や研究機関、企業などが震災の記録の収集・保存に取り組みました。「ひなぎく」では、自治体などが集めた震災に関する音声・動画、写真、ウェブ情報などが保存されており、そうした約363万件の資料が横断検索できます。
デジタルアーカイブが注目される中、官民を問わず様々な組織が膨大な情報を集めました。その一方で、アーカイブ化の取り組みが中止される例も出ています。
「ひなぎく」では、既存の様々な組織が作り上げたアーカイブを引き継ぐ事業を進めていますが、課題もあります。権利処理の問題です。
国立国会図書館電子情報部の伊東敦子主任司書は「閉鎖されたアーカイブとコンテンツ提供者が取り交わした利用許諾と、国会図書館がコンテンツ提供者と通常取り交わす利用許諾の条件が異なることが多く、権利処理を一から取り直す必要が生じる」と話します。
写真や映像・音声は、文書資料に比べて肖像権やプライバシーなどの処理や保護を必要とする権利や利益が多岐にわたります。さらに、権利者が多く存在することが多いそうです。
震災アーカイブ「みちのく震録伝」を運営する東北大災害科学国際研究所の柴山明寛准教授は「膨大な情報から自分が必要な情報を絞り込むことが難しくなっている」と指摘します。
資料を表すキーワードの付け方がアーカイブによって統一されておらず、検索しても引っかからないことがあるそうです。
たとえば「がれき」と調べようとした場合、「がれき」だけでなく、「瓦礫」や「ガレキ」など団体ごとに表記がバラバラになっていると、見つけるのが難しくなります。
柴山准教授は「キーワード付けや分類の負担を軽減するために、人工知能(AI)を使った研究を進める必要性がある」と話します。
費用も大きな負担になります。
柴山准教授によると、写真1枚を公開するのに少なくとも1千円程度はかかるそうです。資料の収集や権利処理、キーワードを付けたりするなど、人手が必要です。さらに保存する情報が多くなればなるほど、サーバーの負担も大きくなります。
今後、費用や人出の負担などからアーカイブ作りを断念したり、維持管理が行き詰まり閉鎖するアーカイブも出てくる可能性もあるそうです。
震災アーカイブを巡る様々な課題に対し、柴山准教授が強く求めているのが「ガイドラインの策定」です。
一部でガイドラインの策定は進んでいますが、詳細な手法までは議論ができていないそうです。
著作権や肖像権の問題についても整備が必要です。柴山准教授は、著作権や人権の保護は必ず必要とした上で「震災直後の数日間など、後世に伝え残す重要な記録は、法整備を行うなど、ある程度緩和が必要ではないか」と提案しています。
1/9枚