おはようございます。月曜日ですね。

こういうニュースを目にしました。

Facebook、「ナパーム弾の少女」を“ヌード”だとして削除(抗議を受け復活)

http://www.itmedia.co.jp/news/articles/1609/11/news014.html

 

事の概要としては

 米Facebookが、ページに投稿された「ナパーム弾の少女」として知られる歴史的反戦写真を、裸の少女が写っているからという理由で削除し、それに抗議したユーザーを24時間投稿停止にした。この件が大きな反響を呼んだ後、Facebookは写真を復活させた。

というもの。

難しいですね。思ったことを2つ書きますね。

①プラットフォームはオピニオンルールを求められる

Facebookは現在毎日11億人が利用するサービス。この利用者は発信者と受信者がそれぞれ含まれています。当然、発信者は思ったことを書き、それを受信者が閲覧することで、また別の何かを思ったりします。

毎日膨大な数のオピニオン(意見)のやりとりが発生するわけですが、この場を提供するFacebookの運営側は、当然このプラットフォーム上で巻き起こる有益でない論争や、法的にアウトーなオピニオンをなるべく小さくする努力をしないといけません。

投稿者側へのアプローチもあれど、影響力はそこまで大きくなく、結局は「アウトプットされた後のもの(及び直前のもの)をスクリーニングする」という手段をとっております。

このスクリーニングという作業に対し、Facebookは何らかの閾値を決定する必要が不可避であり、そのバランス感覚が超絶難しいよね、という問題です。

なにを善しとし、悪しとするか。そこにプラットフォームとしての恣意性や個人性を見せてはいけません。あくまで”場”であるため、すべての人々に共通の、平等な機会を提供するために、グローバルで統一された無機質な客観的判断基準が必要となってくるわけですね。これが大変に難しい。

 

Google、Twitterなど、ユーザーX億人を抱える諸サービスも、同様の問題にぶつかっております。自身も億単位まではいかないものの、近しい数字のステークホルダーを有するサービスの運営において「こういうケースはどうするんだ」みたいなセンシティブなシーンに対する企業やブランドの姿勢に関する会話を結構やってたりします。大変に難しいところ。

 

ここ数年、前時代に物理的要因に依存して決められていた国家や自治体といった「旧来の区分」をインターネットによる物理・時間の超越により思想・宗教・価値観といったより粒度の細かい「新しい区分」がすり抜けていっているように感じます。そして、その先にあるのは大体が「衝突」なのが現状です。

新たな区分を、まだ誰も管理しきれておらず、そこにインターネット系のプラットフォームが直面しているのです。

 

②テキストとコンテキストを、人工知能は見分けられるか

もう一つ難しい事象があります。

それがテキスト(事象)とコンテキスト(解釈)を人工知能に見分けさせるということです。

Facebookは画像解析系の業務をどんどん人工知能ソリューションに置換していっております。

 

Facebook、AI画像認識技術「DeepMask」などをオープンソース化

 

 米Facebookは8月25日(現地時間)、同社の人工知能研究機関「Facebook AI Research(FAIR)」で開発している画像認識関連の3つの技術「DeepMask」「SharpMask」「MultiPathNet」をGitHubで公開した。

まだ発展途上のこの技術をオープンソース化することで、外部研究者の協力を得て精度を向上させるのが目的だ。

FacebookはFAIRの立ち上げ当初から、「コンピュータビジョン」と呼ばれる研究分野に注力し、コンピュータに人間と同じレベルの目と脳を持たせることに取り組んできた。

今回公開した3つの技術は画像内のオブジェクトを抽出して識別するためのもので、同社が4月に発表した視覚障害者向け音声キャプションにも採用している。

 

Facebook、AIを利用し画像の説明を生成–視覚障害者向けに自動代替テキスト機能を発表

カラスミを不適切画像とするFacebookのAI

 どうもFacebookのAI(人工知能)が「カラスミは見せてはならない対象」として画像認識したようである。AIは恐らくカラスミを男性身体の一部が拡大されたものとして捉えたものと思われる。カラスミが不適切な画像であるとは、全てのカラスミファンにとって失礼な話だが、FacebookのAIは海外からの観光客以上にカラスミの何であるかが理解できないのだ。

 

ここでも似たような問題は起こっておりますが、Facebook社が今開発している画像判別システムは、テキスト(入力された情報の記号部分)については解析が可能ですが、そのコンテキスト(文脈、テキスト外の持つ意味情報)については判断するすべを(おそらく)持っておりません。

機械学習においても、その基礎は”あるインプットに対し、ある辞書(ライブラリ)を元にアウトプットを行い、その正誤を取り入れる”というモデルに近く、この法則に従っていくと「最初の一回の判断においては、一定量の誤判断が生じる」ということになります。

殊に、政治的背景、芸術的な価値、文化的な情報については元となる辞書が存在しないため、「一回目の判断」になるケースが不確定に多く、これが(外部評価者からの)人工知能のパフォーマンスを低下させるものになりえます。

 

恥ずかしながら、大してこの分野に詳しくはないので、「これだ」というソリューションを僕の中には持っていないのですが、おなじく自動判断系の人口知能的なやーつをいじくったり調べたりしている身としては、めっちゃ難しい&大変そうなのが伝わればと思った所存です。

 

何にせよ、技術的にも倫理的にも大変難しいというか、微妙なこの問題は今後もおそらくどんどん数を増していくと思われます。

一方で、前者を人間が、後者を機械が、きっちり役割分担できていると、生産性とか激高まって大変いいだろうな、って思ったりもしました。

 

単純明快な「勧善懲悪」な世の中から、いろいろなものが物理的な限界を超えてつながり、難しいラインの「分配の正義」が求められるようになってきました。

 

Facebookも「すべてをつなげる」を掲げて日々お仕事がんばっているので、この辺の分配奉行具合も、ぜひぜひ期待したいところであります。

 

 

なんつって。