IT・科学
グーグルが「だまされた」もの 大量投稿・記事の真偽は見抜けず
DeNAの医療・健康情報サイト「WELQ」が、不正確な記事があるとして公開中止になった問題。なぜ、グーグルの検索結果で問題のある記事が上位に表示されてしまったのでしょうか? グーグルが「だまされた」ものとは何か? SEOの専門家でグーグルのアルゴリズムに詳しい、アイレップの渡辺隆広・SEM総合研究所長に話を聞きました。
DeNAが運営するキュレーションサイトでは、指定されたキーワードを見出しや本文中に盛り込んだり、一定以上の文字数にしたりするよう指示がされていました。その結果、それらの記事が検索結果の上位に表示されましたが、医療情報について不正確な情報があると外部からの指摘が相次ぎ、全10サイトが非公開となりました。
そもそも、グーグルの検索順位はどのように決まるのでしょうか。渡辺所長によると、見出しや本文中に、ユーザーが知りたい情報が入っているかや文字数、サイトの更新回数など、さまざまな要素から総合的に判断しているそうです。
例えば「チャーハン 作り方」と検索したとします。検索した人が知りたいことは、調理の手順やどんな材料を使うのかということでしょう。そうしたユーザーが知りたいと思った情報が盛り込まれているかをグーグルは判断していると言います。
一方で「東京 天気」と検索した場合は、東京の天気がわかれば良いため、長い文章は必要ありません。ただ、一般論として文章が長い方が検索結果の上位に表示されるそうです。
では、グーグルの「弱点」はどこにあるのか。渡辺所長は「グーグルは、コンピューターか人間が書いた記事かは判断できるが、記事の内容の真偽やサイトの評判を判定することはできない」と話します。
WELQでは、ほかのサイトから文言の転用を推奨していると疑われる記事がありました。「記事のリライトだとしても、人間が書いているので、グーグルが取り除くのは難しい。元の記事が役に立つのであれば、それを転用したサイトもまた役に立つと判断する可能性がある」。
最近ではツイッターやフェイスブックといったSNSでニュースを目にする機会も増えています。渡辺所長によると、ツイートやシェアの量は、検索結果に直接は影響しませんが、それを見た人が検索することによって、結果的に検索結果が上がることが多いそうです。
米大統領選では「フェイクニュース(偽のニュース)」が話題になりました。「フランシスコ法王がドナルド・トランプ支持を表明し、世界に衝撃を与えた」「ウィキリークスが、ヒラリーがイスラム国(IS)に武器を売っていたと確認」といったウソのニュースが、ネット上に拡散し、大統領選に影響を与えたのではないかとの見方が出ました。
これに対し、グーグルは、検索して表示されるニュースの記事に「ファクトチェック」という機能を作りました。まずは米国と英国でサービスを開始しています。話題になっている記事について、それが本物のニュースかを示すもので、真偽の判断に役立つと期待されています。
ただ、渡辺所長は「アルゴリズムで真偽判定をするのは難しく、ネットユーザーや専門機関と協力して疑わしいニュースを排除する仕組みが必要だ」と話します。
SNSは他社のサービスなのでグーグルがコントロールすることはできません。渡辺所長は、検索だけしかなかった時代と違い、グーグルが自社のアルゴリズムを改修しても、現在のネット環境では限界があると言います。
検索結果には、そのサイトが配信している記事本数も影響します。大量の記事を短期間で配信するようなサイトはメディアが多く、ニュースとして配信されたとアルゴリズムが判断すると検索上位に表示される可能性が高くなるそうです。
WELQなどのサイトは、クラウドソーシングなどを使ってたくさんの人に記事を分担して書かせて、短期間に多くの記事をアップロードしていました。渡辺所長は、記事本数の多さが検索順位に影響し、結果的に検索上位に表示されてしまった可能性があると指摘します。
WELQの記事については、不正確な医療情報が掲載されているとの指摘が相次ぎました。インターネット上の医療情報は、どれだけ正確なのでしょうか。
国立がん研究センター中央病院の後藤悌医師は2007年に、「ステージ4の非小細胞肺がん」を検索し、表示されるサイトを検証しました。
きっかけの一つは、診察に訪れる患者からの質問でした。「●●という治療は効果がありますか」。効果が定かでない治療法について尋ねられることがしばしばあり、情報源となっていたインターネット上の医療情報について調べることにしたそうです。
その結果、上位に表示された50サイトのうち、管理者の透明性が確保され、正しい情報を発信していると確認できたのは、5割未満でした。いまは調査をした当時に比べ、正しい医療情報が増えてきていると言いますが、「何が正しいか正しくないかを患者が見分けるのは難しい。迷ったら一人で判断せず、医師に相談してほしい」とアドバイスします。
日本では、医療情報をお金を出して買おうという人は少なく、それが生死に関わる医療情報だとしても状況は変わらないとし、ネット上での医療情報の発信をビジネスとして成り立たせるのは難しいと指摘します。
DeNAだけでなく、著作権侵害があったり、内容を確認したりするため、リクルートホールディングスやサイバーエージェント、ヤフーなどが相次いで、キュレーションサイトを非公開にしています。他のサイトの情報を転用してつなぎ合わせた、著作権の侵害が疑われるまとめサイトはたくさんあります。今回の問題をきっかけにこういったサイトは、減っていくのでしょうか。
渡辺所長は「今回の一連の報道で、キュレーションサイトの舞台裏が明らかになり、個人・企業レベルで同じようなことをする人が増えるのではないか。グーグルがアルゴリズムを根本的に変えるには時間がかかる。残念ながら正しくない情報は減らないのではないか」と懸念しています。
1/6枚