阿部和也の人生のまとめブログ

私(阿部和也)がこれまで学んだとこ、考えたことなどをまとめていきます。読んだ本や記事をきっかけにしていることが多いのですが、読書日記ではありません。

2017年12月

結果の解釈における危険性についてはすでに触れた。著者らが心配するのは、相関関係を因果関係と誤解すること、相関関係を固定した事実と誤解することである。

たとえば、「米国の州ごとにある仮釈放審査委員会の半数以上が、仮釈放の判断材料にデータ分析による予測を採用している」し、「ビッグデータ分析を駆使して、特別な監視が必要な地区や団体、個人を特定している」警察署も増えている(237ページ)。著者らは「プライバシーの保護がきわめて困難になるばかりか、まったく新しい脅威を生み出すことにもなる」として、「特定の性質や習性を持っているだけでペナルティを受けかねないのである(226ページ)」と警告している。

予測された行為について実行前に責任を負わせることからして大問題だが、とりわけ、相関関係に基づくビッグデータ予測を使っていながら、個人の責任いついては因果的な判断を下している。問題の確認はここにある。(243ページ)

著者らは「予測主義の国は、福祉国家どころか過保護国家だ(264ページ)」として、個人についての予測に基づく介入を、すべきでないものと断定している。そして、個人の尊厳を守るためのビッグデータ時代の新たなルールとして「人間の関与を条件とすること」を挙げている。

ビッグデータ時代には、正義の解釈を広げて、人間の関与を確保する手段も含めなければならない。そうしなければ、正義という考え方が根底から揺らぎかねないのだ。
人間による関与という条件を付ければ、ビッグデータの分析だけでなく、確実に実際の行動に基づいて我々の言動が判断される。実際の行為についてのみ責任を問われるべきであり、将来の行動の統計的な予測について責任を問われることがあってはならない。また、実際の行為について判断する場合もビッグデータだけで判断することがあってはならない。(262ページ)

予防拘禁のような非人道的な措置はあってはならないが、予備罪についてもデータだけでの適応はあってはならない。人間は理性と倫理観を備えており、自分を抑えることができる。その人間らしい能力に最大限の敬意を払わねばならない。

著者らはビッグデータによる予測を使う場合の原則として次の3項目を挙げている(263ページ)。
  1. 透明性:予測の基になったデータとアルゴリズムの公開
  2. 認定制度:専門の第三者機関によるアルゴリズムの健全性と有効性の認定
  3. 反証可能性:予測について反証できる具体的な方法の用意
さらに「人間の関与」という条件を担保し、個人責任から目をそらさないことが重要だとしている。

ビッグデータに頼りすぎる危険もある。

ビッグデータのメリットを聞いているうちに、本来不向きな分野にもビッグデータを応用してみたり、分析結果に過度な自信を持ったりするのが人間だ。(254ページ)

グーグルはデータ主義で、以前は採用時に大学進学適性試験(SAT)のスコアと大学卒業時の成績平均値(GPA)の提出を求めていた。しかし、それらのスコアが「独創的で適応力のある労働力のニーズを本当に反映できるのか」と著者らは疑問を投げかける。

博士課程中退組のラリーやセルゲイが、伝説のベル研究所に就職していたら、マネージャーになれるチャンスはあっただろうか。グーグルの基準に照らせば、ビル・ゲイツもマーク・ザッカーバーグもスティーブ・ジョブズも大卒ではないから、昇進どころか入社もできないのである。(250ページ)

私たちはビッグデータという新しい知の体系に慣れていかねばならない。

この本の第8章は「リスク — ビッグデータのマイナス面」、第9章は「情報洪水時代のルール」で、インターネットのガバナンスと規制を専門とするマイヤー=ショーンベルガーの本領が発揮され、非常に深い考察がおこわれている。

ビッグデータの危険性は、解析そのものに内在する危険性と、結果の解釈における危険性に大別される。解析の結果はかならず解釈されるのであるから、すべての危険性がこの2つの側面を持つことになる。どちらの側面がより強いかということだ。

解析そのものの危険性は、匿名化が困難になることと、データの利用法が想定できないことによる。韓国の住民登録番号から個人が特定されてしまうことは、セキュリティ集団スプラウト『闇(ダーク)ウェブ』について書いたブログで紹介した。すでにインターネット上では、事件を起こした個人を特定して個人情報を暴露する「さらし」がおこなわれている(ときに間違っていることがある)。ビッグデータ解析をおこなうと個人の特定がさらに高精度で可能となる。

ビッグデータ解析の特徴は、多種多様なデータを統合して解析することだ。医療情報とクレジットカード使用履歴を組み合わせる、移動情報とSNS情報やホームページへのアクセス情報を組み合わせるなどすると、個人の秘密が暴かれてしまう可能性がある。この本ではAOLとネットフリックスの匿名化データから個人が特定され、秘密が暴露された事例が紹介されている(231ページから233ページ)。

著者らは、データ利用に関する現在の「告知と同意」という枠組みが無意味になるとしている。

最初のデータ収集時に、将来のあらゆるデータ利用に同意してもらう手もあるが、現実的ではない。そんな十把一からげの承認方式では、説明に基づく同意という考え方自体が骨抜きになる。「告知と同意」方式は、これまで試行錯誤の末に信頼を得た方式である。だが、ビッグデータの世界では、データに潜む価値を発掘しようにも制約が多すぎるし、個人のプライバシーを守ろうにも中身がなさすぎる。(230ページ)

そこで提案されているのが「データ収集時に個別に同意を求める形よりも、データ利用者に責任を負わせる形(258ページ)」である。さらに、データの利用や解析法が適正であるかどうかの検証を専門とするアルゴリズミストといった専門職が必要とされていると指摘している(265ページ)。

「レセプト情報・特定健診等情報データベース(NDB)」がうまくいかない最大の原因は「名寄せ」がうまくいかないことだと聞いたことがある。名寄せとは、文字通り複数のシステムに分散した同一個人のデータをひとつにまとめることだ。レセプトに記載された医療データと健診情報のデータが、同じ個人のものかどうか判定できないことが多いのだろう。

データの正規化も問題で、たとえば「ミリリットル毎分」という単位は「ml/min」「mL/分」を始めとしてさまざまな記法で書かれる可能性がある。文字的な相同性はまだ処理しやすいが、毎分と毎時の換算などになると、あらかじめわかっていればプログラムで処理できるが、予想がつかないものは処理できない。

だが、そのような処理も、ビッグデータ解析では必要性が低下するかもしれない。著者らは「数値から精度を読み取るのではなく、確率を読み取るのがビッグデータ」であるから、「規模が大きくなれば乱雑さを受け入れるべき」だという(59ページ)。

ビッグデータの世界に足を踏み入れるためには、「正確=メリット」という考え方を改める必要がある。(67ページ)

グーグル翻訳はうまく機能しているが、これはアルゴリズムが賢いからではなく、データの量が多いからなのだそうだ。

グーグルが2006年に発表した1兆語コーパス[引用者注:辞書のようなもの]には、インターネット上に漂う〝ゴミやガラクタ〟も含まれていた。実はこれがコンピュータのトレーニングに効果的だった。(65ページ)

データベースにも「Hadoop」という、大量のデータをそこそこの精度で処理するようなものが登場している。高い精度を必要としない処理に向いている。

例えば、顧客を細分化して、特別なキャンペーンを告知するといった用途だ。クレジットカード会社のVisaでは、2年分の記録に相当する約730億件の取引の処理にこれまで1ヵ月かかっていたが、Hadoopを使って同じ処理を実行したところ、わずか13分で完了した。本格的な会計処理に使うのは難しいかもしれないが、少々の誤りが許容される案件であれば、並外れた能力を発揮する。(77ページ)

さらに、直線で表せないような複雑な相関関係の研究も進んでいる。

相関関係が複雑になると、データの乱雑さはさらに高まる。例えば、はしかの予防接種を受けたかどうかと、医療にかける費用との間には相関があるように見える。しかし、この相関はきれいな直線ではない。いびつな曲線だ。人々が健康にカネをかけるようになると、(想像どおり)予防接種の格差は小さくなるが、1人あたりの健康への支出がさらに増えると、驚くことに格差は再び広がるのだ。(99ページ)

NDBのデータも、名寄せが不完全なまま解析してみてもよい。だが、繰り返しになるが、予想外の結果が出たとき、あるいは今まで目をつぶっていたことが明らかになったとき、それに対してどのように対応するのか、ある程度の覚悟がなければビッグデータ解析は無駄になってしまう。

医療データの分野の事例としては、メドスター・ワシントン医療センターの事例が紹介されている。再入院や感染症を抑えるために、数年分の診療記録を匿名化し、マイクロソフトリサーチに委託して分析したのだ。

鬱血性心不全の患者は再入院しやすく、再入院時は治療も難しくなる。しかし、今回の分析で意外な予兆が見つかった。患者の精神状態だ。最初の患者の訴えの中に、「憂鬱感」など心痛らしき言葉が含まれていた場合、退院から1ヵ月以内に再入院する確率が著しく高まるのだ。(196ページ)

著者らは「この相関関係だけで因果関係が成立するわけではないが、退院後に患者の心の健康に配慮した対策を取れば、身体の健康にもつながることがわかる」と解釈しているが、私はこのデータを違ったふうに解釈している。心不全の重症の程度や治りにくさの程度を患者が本能的に感じているという解釈だ。心筋梗塞を起こすと胸部に激しい痛みを感じることが多いが、心臓の発生に関わる解剖学的な理由から、頸部や顎下部に痛みを感じることがある。頸部の感染症など、頸部に原因のある痛みとの鑑別として、「命に関わるような気がする恐怖感」を感じることがあると伝えられている。これも人間が本能的にことの重大さを認識するためではないかと考えている。早産児で感染症の兆候がバイタルが崩れる前から出ているという話が紹介されていた。もし早産児が言葉を喋れれば「何となく気持ちが沈む」などと訴えたのではないか。

このように、相関関係から因果関係を推し量るのは難しい。その困難さをよく知り、警告を発している著者らからして、このような(あえて言えば)勇み足を踏んでいる。

米国の電子カルテは情報量が多い。紙カルテの時代から、医師は所見を口述し、秘書がタイプしたものにサインするという方式だった。医師は自分でキーボードを打つ必要がないので、それだけ丁寧な口述所見になる。日本の場合、多くの病院では医師が自ら、日頃使い慣れているコンピュータと違うかな漢字変換を使って所見を入力しているので、入力が少ない。どのようにして解析対象のデータを増やすかが課題だろう。

データの種類を増やす場合に、医療以外のデータを取り込むことも重要だ。たとえば「英国の大手保険会社アビバは、特定の保険加入申込者について、採血・採尿による診断の代わりに、与信情報や消費者マーケティングを活用できないかどうか検討中(91ページ)」だという。米国では支払いをクレジットカードでおこなうことが普通なので、経済的な情報を取り込むことは容易だろう。日本の場合もカード決済やインターネット購買が普及しているので、中年以降の世代ならかなりの生活情報を取り込むことができるだろう。スマートフォンから移動情報を得ることも考えられる。

ただし、最初の問題に立ち返るが、その情報を使って何を知りたいのかが問題だ。経済的な情報を加えれば、経済的な要素を含んだ相関関係が明らかになるかもしれない。それにどう対処するのかをある程度考えておく必要があるだろう。考えもなしに突き進むと、パンドラの箱を開けることにもなりかねない。

現在、日本では大量の医療データが日々蓄積されている。厚生労働省は「高齢者の医療の確保に関する法律」に基づき、2009年度以降のレセプト情報と2008年度以降の特定健診等の情報を収集して「レセプト情報・特定健診等情報データベース(NDB)」に格納し、2011年以降行政機関や研究者等に向けてデータの提供をおこなっている(http://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000141549.pdf)。また2005年度からDPCデータの部分的公開が始まり、2011年度からは全期間のデータが公開されている(http://dpcri.or.jp/index.php?plugin=attach&refer=SeminarPage%E2%80%8B%2F2012_10_27高知セミナー&openfile=20121027久保.pdf)。2017年度からは同省が保有するDPCデータを研究者に公開する事業も始まっている(http://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/iryouhoken/dpc/index.html)。

また、電子カルテの普及が進み、2015年の「月刊新医療」による調査(https://www.jahis.jp/files/user/(印刷版)2015導入調査報告書.pdf)では、電子カルテの導入率は27.8%で、その中で400床以上の病院の導入率は70.1%であった。医療施設内に大量の医療データが蓄積されつつあることがわかる。

電子カルテ情報の共有は、医師会、厚生労働省、総務省などが進めているが、東京都では都立8病院と公社6病院(東京都の監理団体である東京都保健医療公社が経営する病院)の診療データを統合してビッグデータとして解析する診療データバンク構想を公表している(http://www.metro.tokyo.jp/tosei/hodohappyo/press/2016/12/27/01.html)。

大量の医療データをビッグデータとして解析したいという気持ちはわかる。だが問題は何を知りたいのかということだ。

病院で患者にさまざまな管や電極コード、装置を取り付けると、膨大なデータが発生する。心電図だけでも測定回数は1秒間に1000回にも及ぶ。しかし、意外なことに、現状では実際に利用・蓄積されているデータは全体のごく一部にすぎず、ほとんどが捨てられているのである。患者の症状や治療の成績に関して重要な手がかりが隠れているかもしれないのに、〝死に情報〟になっているのだ。また、他の患者のデータも交えて分析すれば、治療の有効性を探る重大なヒントが得られる可能性もある。(95ページから96ページ)

この本では予測分析の例としてオンタリオ工科大学のキャロリン・マクレガー教授らのチームとIBMが共同で研究しているシステムが紹介されている。

このシステムでは、心拍、呼吸、体温、血圧、血中酸素濃度ほか16種類のデータを収集する。1秒間に入ってくる測定値は、延べ1260件に上る。
このシステムは、早産児の状態のわずかな変化を検知し、感染症の明らかな兆候が現れる24時間前に発症を警報で知らせてくれる。(96ページ)

著者は、このシステムは「理由はわからなくても答えを出す」という。たしかに治療開始の判断に利用するなら、理由は不要だろう。このシステムを導入して明らかになったのは、バイタルサインがきわめて安定しているときに重症感染の予測が出ることが多いということだ。バイタルが崩れる前に重症感染症が予測できるのはすばらしいことだ。

それでは日本の電子カルテのデータを統合したビッグデータからは何が得られるのだろう。日本でもほとんどの生体情報が電子カルテに保存されていない。病理検査の結果や放射線画像さえ、「部門システム」などと呼ばれる別システムに保存されていることがある。要するに、電子カルテに蓄えられている情報は、非常に狭く偏っている。そのようなデータの解析から何を期待するのかを、前もって明確にしたおいたほうが良い。漠然と「何か出てくるだろう」と考えて始めるような事業ではない。

↑このページのトップヘ