駅の改札前に設置された監視カメラが、大きなスーツケースを引く男性を捉えている。その映像を見た人間は、直前に何を経験したかによって、まったく異なる物語を瞬時に組み立てる。朝のニュースで強盗事件を知った人は「現金を運んでいるのではないか」と身構え、昨夜のサスペンスドラマで死体遺棄のシーンを見た人は背筋を冷たくする。スーツケースという同一の物体が、見る者の記憶と経験によって別々の意味を帯びる。この現象は、知覚が単なる光学的入力ではなく、身体に蓄積された経験の総体によって絶えず書き換えられる動的な行為であることを示している。では、カメラというレンズを通じて映像を処理するAIは、このスーツケースを「読む」ことができるのか。
監視カメラの映像を人間が見るとき、脳は映像を受け取る前から解釈の準備を整えている。神経科学者ラジェシュ・ラオとデイヴィッド・バラードが1999年に示したように、人間の視覚野は網膜からの入力信号よりも、脳内部から降りてくるトップダウンの予測信号をはるかに多く処理している。つまり人間は「見てから考える」のではなく、「考えながら見ている」。スーツケースを引く男性の映像は、見る者の経験という文脈フィルターを通過して初めて意味を持つ。AIが同じ映像を処理するとき、そこには何が起きているのか。
視覚的証拠を「客観的事実」として扱う習慣は、19世紀末の近代犯罪捜査とともに誕生した。フランスの警察官アルフォンス・ベルティヨンは1883年に人体計測による犯罪者識別システムを考案し、フランシス・ガルトンは1892年に指紋分類法を体系化した。身体的特徴を数値化・記録することで犯罪者を同定しようとしたこの試みは、視覚的データが文脈を切り離しても意味を保持するという楽観的な前提に依拠していた。しかしベルティヨン法は双子の識別に失敗し、文脈なき事実の限界を露わにした。視覚的証拠への過信は、近代固有の認識論的習慣として今日のAI監視技術にも受け継がれている。
認知科学における「状況的認知(Situated Cognition)」の理論は、知覚が身体と環境との相互作用の中でしか成立しないことを示す。哲学者アンディ・クラークとデイヴィッド・チャーマーズが1998年に提唱した「拡張された心(Extended Mind)」の概念によれば、人間の認知はそもそも脳の内部に閉じておらず、身体・道具・環境との連続的な相互作用の中に成立している。AIの物体認識は統計的パターン照合として機能するが、身体を持たない存在は過去の経験から生まれる「文脈的事前確率」を持てない。スーツケースの映像に「旅行」「犯罪」「引越し」という複数の可能性を重ね合わせる能力は、身体的経験の蓄積から生まれるのである。
試してみてほしい小さな実験がある。同じ写真——大きなスーツケースを引く人物の映像——を、強盗事件のニュース記事を読んだ直後と、旅行雑誌を眺めた直後に、それぞれ見てみてください。自分の解釈がいかに直前の文脈によって変化するかを体感するこの行為は、知覚の文脈依存性を身をもって確認する認知実験となる。情報学者の西垣通が2004年に論じたように、情報の「意味」は送り手ではなく受け手の文脈によって生成される。この自覚こそが、AIに解釈権限を委ねることへの批判的リテラシーの出発点となる。自分が「見ている」と思っているものが、実は「読んでいる」ことだと気づいた瞬間、AIの限界が見えてくる。
「AIが犯罪を予測・防止できるか」という問いは、技術的可能性の問いではなく、「誰の文脈がAIに学習されるか」という権力の問いへと転換されなければならない。MITメディアラボのジョイ・ブオラムウィニとティムニット・ゲブルが2018年に実証したように、商用の顔認識AIは黒人女性に対して白人男性の最大34.7ポイント高い誤認識率を示した。これは「客観的カメラ」が実は学習データに埋め込まれた社会的偏見を忠実に再現する装置であることを意味する。文脈を持たないAIに文脈判断を委ねるとき、そこで再現されるのは社会の現状ではなく、データを生成した権力構造の鋳型である。
「AIが犯罪のない世界を作れるか」という問いを反転させると、別の問いが浮かび上がる。文脈なき監視が増えるほど、人間は自ら解釈する必要を失っていくのではないか。解釈とは、身体と経験と記憶が交差する場所に生まれる行為であり、それを機械に外注した先に待つのは安全な社会ではなく、解釈能力を手放した人間社会かもしれない。AIはスーツケースを「見る」ことができる。しかし「読む」ことは、今もまだ人間の身体にしかできない仕事である。