RITE ESSAY/メンバーの記事

AIは「見る」が、「読む」ことはできない

Masaki Nakasuga

2026.06.18READ 8 MIN

フォローには登録（無料）が必要です。

ORIGINAL QUESTION — この記事のはじまり (問い・背景)

テーマ

AIはカメラで捉えた事実を解釈することはできるのか

問い・背景

人間は、自身の経験に基づき、事実を解釈している。
例えば、人間は大きなスーツケースを運んでいる男性を見た時、「旅行へ行くのではないか」と思うのか、「大金を運んでいるのではないか」と思うのか、「死体を運んでいるのではないか」と思うのか。
人間は大きなスーツケースを見る前に、強盗のニュースを見た人は「大金を運んでいるのではないか」と思い、ドラマで犯人が死体を運んでいるシーンを見た人は「死体を運んでいるのではないか」と思う。
それでは、AIが大きなスーツケースを運んでいる男性をカメラで捉えた時、AIは大きなスーツケースを運んでいる男性の文脈を捉えることができるのか。
そして、大きなスーツケースを運んでいる男性が犯人であるとした場合、果たしてAIは犯人を捕まえることができる日が来るのか、さらには、AIは犯罪がない世の中を築くことができる日が来るのかを問いたい。

駅の改札前に設置された監視カメラが、大きなスーツケースを引く男性を捉えている。その映像を見た人間は、直前に何を経験したかによって、まったく異なる物語を瞬時に組み立てる。朝のニュースで強盗事件を知った人は「現金を運んでいるのではないか」と身構え、昨夜のサスペンスドラマで死体遺棄のシーンを見た人は背筋を冷たくする。スーツケースという同一の物体が、見る者の記憶と経験によって別々の意味を帯びる。この現象は、知覚が単なる光学的入力ではなく、身体に蓄積された経験の総体によって絶えず書き換えられる動的な行為であることを示している。では、カメラというレンズを通じて映像を処理するAIは、このスーツケースを「読む」ことができるのか。

監視カメラの映像を人間が見るとき、脳は映像を受け取る前から解釈の準備を整えている。神経科学者ラジェシュ・ラオとデイヴィッド・バラードが1999年に示したように、人間の視覚野は網膜からの入力信号よりも、脳内部から降りてくるトップダウンの予測信号をはるかに多く処理している。つまり人間は「見てから考える」のではなく、「考えながら見ている」。スーツケースを引く男性の映像は、見る者の経験という文脈フィルターを通過して初めて意味を持つ。AIが同じ映像を処理するとき、そこには何が起きているのか。

視覚的証拠を「客観的事実」として扱う習慣は、19世紀末の近代犯罪捜査とともに誕生した。フランスの警察官アルフォンス・ベルティヨンは1883年に人体計測による犯罪者識別システムを考案し、フランシス・ガルトンは1892年に指紋分類法を体系化した。身体的特徴を数値化・記録することで犯罪者を同定しようとしたこの試みは、視覚的データが文脈を切り離しても意味を保持するという楽観的な前提に依拠していた。しかしベルティヨン法は双子の識別に失敗し、文脈なき事実の限界を露わにした。視覚的証拠への過信は、近代固有の認識論的習慣として今日のAI監視技術にも受け継がれている。

認知科学における「状況的認知（Situated Cognition）」の理論は、知覚が身体と環境との相互作用の中でしか成立しないことを示す。哲学者アンディ・クラークとデイヴィッド・チャーマーズが1998年に提唱した「拡張された心（Extended Mind）」の概念によれば、人間の認知はそもそも脳の内部に閉じておらず、身体・道具・環境との連続的な相互作用の中に成立している。AIの物体認識は統計的パターン照合として機能するが、身体を持たない存在は過去の経験から生まれる「文脈的事前確率」を持てない。スーツケースの映像に「旅行」「犯罪」「引越し」という複数の可能性を重ね合わせる能力は、身体的経験の蓄積から生まれるのである。

試してみてほしい小さな実験がある。同じ写真——大きなスーツケースを引く人物の映像——を、強盗事件のニュース記事を読んだ直後と、旅行雑誌を眺めた直後に、それぞれ見てみてください。自分の解釈がいかに直前の文脈によって変化するかを体感するこの行為は、知覚の文脈依存性を身をもって確認する認知実験となる。情報学者の西垣通が2004年に論じたように、情報の「意味」は送り手ではなく受け手の文脈によって生成される。この自覚こそが、AIに解釈権限を委ねることへの批判的リテラシーの出発点となる。自分が「見ている」と思っているものが、実は「読んでいる」ことだと気づいた瞬間、AIの限界が見えてくる。

「AIが犯罪を予測・防止できるか」という問いは、技術的可能性の問いではなく、「誰の文脈がAIに学習されるか」という権力の問いへと転換されなければならない。MITメディアラボのジョイ・ブオラムウィニとティムニット・ゲブルが2018年に実証したように、商用の顔認識AIは黒人女性に対して白人男性の最大34.7ポイント高い誤認識率を示した。これは「客観的カメラ」が実は学習データに埋め込まれた社会的偏見を忠実に再現する装置であることを意味する。文脈を持たないAIに文脈判断を委ねるとき、そこで再現されるのは社会の現状ではなく、データを生成した権力構造の鋳型である。

「AIが犯罪のない世界を作れるか」という問いを反転させると、別の問いが浮かび上がる。文脈なき監視が増えるほど、人間は自ら解釈する必要を失っていくのではないか。解釈とは、身体と経験と記憶が交差する場所に生まれる行為であり、それを機械に外注した先に待つのは安全な社会ではなく、解釈能力を手放した人間社会かもしれない。AIはスーツケースを「見る」ことができる。しかし「読む」ことは、今もまだ人間の身体にしかできない仕事である。

DEEPER/学術的観点から

1999年、米ワシントン大学のラジェシュ・ラオとデイヴィッド・バラードは『Nature Neuroscience』誌上で予測的符号化モデルを提唱し、視覚野が網膜入力よりも脳内トップダウン予測を優先処理することを示した。この発見が示す逆説は深い——人間の「見る」という行為は、すでに経験によって形成された予測モデルの検証作業に過ぎない。神経科学者カール・フリストンはこの知見を2010年に自由エネルギー原理として統合し、身体を持つ生物のみが環境との相互作用を通じて事前確率を更新できることを示した。身体なきAIが文脈的解釈を生成できない理由は、技術的未熟さではなく、存在論的な構造の違いにある。

SIGNAL 01
商用顔認識AIの誤認識率は、肌の色が濃い女性で最大34.7ポイント高く、白人男性との格差が実証された。「客観的」とされるAIの視覚が学習データの偏見を再現することを示す。（Buolamwini & Gebru, 2018, PMLR 81: 1–15）
SIGNAL 02
人間の視覚野における信号処理の約80%は脳内トップダウン予測が占め、網膜からの入力は残り20%に過ぎないとされる。「見ることは考えること」であり、身体経験なきAIとの根本的差異を示す。（Rao & Ballard, 1999, Nature Neuroscience 2(1): 79–87）
SIGNAL 03
米国の予測的治安維持システムの導入都市では、アルゴリズムが高リスクと判定した地区への警察出動が増加し、その地区の逮捕件数がさらに増えるフィードバックループが確認されている。文脈なき予測が既存の不均衡を増幅する構造を示す。（Angwin et al., 2016, ProPublica調査報道）
SIGNAL 04
哲学者クラークとチャーマーズの拡張された心の理論（1998年）は、認知が脳内に閉じず身体・環境との相互作用に成立することを示した。AIが文脈的解釈を持てない構造的理由を哲学的に根拠づける古典論文。（Clark & Chalmers, 1998, Analysis 58(1): 7–19）

KEY REFERENCE/参考文献

Rao, R. P. N. & Ballard, D. H. (1999). "Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects." Nature Neuroscience, 2(1): 79–87. DOI: 10.1038/4580
視覚野がトップダウン予測を優先処理することを示した神経科学の基礎論文。人間の「見る」行為が身体的経験に依存する予測検証であることを実証する。
Buolamwini, J. & Gebru, T. (2018). "Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification." Proceedings of Machine Learning Research (PMLR), 81: 1–15.
商用顔認識AIが肌色・性別によって最大34.7ポイントの誤認識格差を示すことを実証。AIの「客観的視覚」が学習データの社会的偏見を再現する装置であることを明らかにした。
Clark, A. & Chalmers, D. (1998). "The Extended Mind." Analysis, 58(1): 7–19. DOI: 10.1093/analys/58.1.7
認知が脳内に閉じず身体・道具・環境との連続的相互作用の中に成立するという拡張された心の概念を提唱。身体なきAIが文脈的解釈を持てない哲学的根拠を与える。
Friston, K. (2010). "The free-energy principle: a unified brain theory?" Nature Reviews Neuroscience, 11(2): 127–138. DOI: 10.1038/nrn2787
予測的符号化を自由エネルギー原理として統合した統合レビュー。身体を持つ生物のみが環境との相互作用を通じて文脈的事前確率を更新できることを理論化する。
Dreyfus, H. L. (1972). What Computers Can't Do: A Critique of Artificial Reason. Harper & Row.
AIが身体的経験に基づく文脈理解を持てないことを哲学的に論じた古典。現象学的立場からAIの解釈能力の構造的限界を早期に指摘した。
西垣通（2004）『基礎情報学——生命から社会へ』NTT出版
情報の「意味」は送り手ではなく受け手の文脈によって生成されるという基礎情報学的視点を展開。AIが文脈を持てない理由を情報論から根拠づける日本語圏の一次的著作。
Pasquale, F. (2015). The Black Box Society: The Secret Algorithms That Control Money and Information. Harvard University Press.
AIアルゴリズムの不透明性と社会的権力構造を論じた一般向け著作。文脈判断をアルゴリズムに委ねることの倫理的危険性を権力論として展開する補助文献。

FROM READER TO WRITER

読み手から、書き手へ。

いま読み終えたこの記事も、誰かの問い1つから生まれました。取材経験も、執筆経験も、実績もいりません。あなたの問いが、次の記事になります。

書き手になる →次の記事を読む →

※ 記事を読むのに、登録はいりません。登録は「書き手になる」ためのものです。

読者 1 ／訪問者 0 ／コメント 2

ABOUT THE AUTHOR/この記事を書いた人

Masaki Nakasuga

フォローには登録（無料）が必要です。

MORE FROM AUTHOR/同じ著者の他の記事

欠けているから、つながれる

誰かの発言の小さなほころびに、つい目が吸い寄せられる瞬間があります。会議室で同僚が言い淀んだ一言、SNSに流れてきた批判コメントの群れ——気づけば自分もその輪に加わり、指先が動いています。その衝動は意志の弱さではありません。脳が生存のために磨き上げてきた、精密なアバタ探知機の作動音です。しかし同じ脳が、傷を金で継ぎ、欠けた牙を知恵の証とし、不完全な隣人と共同体を築いてきた歴史も持っています。アバタを見る目とエクボを見る目は、別の器官ではなく、同じ知覚装置の異なる較正状態です。では、その較正はどうすれば変えられるのか。

2026.07.04

ノイズを把握できる知性だけが、新しい価値を生む

締め切り前夜、追い詰められた頭の中に、まったく無関係な子ども時代の記憶がふと浮かんだ経験はないでしょうか。疲弊した前頭前野が抑制を緩め、普段は門前払いにされる信号が皮質に滑り込む。翌朝、そのノイズが思わぬ解決策の種になっていた——そういう経験を持つ人は少なくないはずです。神経科学はこの現象を「確率共鳴（stochastic resonance）」と呼び、適度なノイズが閾値下の微弱信号を検出可能にすると説明します。では、AIはこの逆説を主体的に引き受けることができるのでしょうか。「無関係な情報を選ぶ」という行為そのものが、知性の核心に触れる問いです。

2026.06.08

AIは命題を「内側から否定」できない

ある組織の会議室で、難題を前にした担当者がAIに問いを投げた。「この問題の命題と反対命題を提示し、より高い次元で統合してほしい」。返ってきた回答は整然としていた。論理の筋も通っていた。しかし、その場にいた全員が同じ感覚を持った——「正しいのに、使えない」。命題は正確に要約され、反対命題は鮮やかに反転され、統合命題は穏やかな折衷案として着地していた。何が足りなかったのか。その違和感の正体を問うことが、このエッセイの出発点です。

2026.05.26

RITE は、読み手が次の書き手になる共創メディアです。あなたの問いも、 1 本の記事になります。記事を読むのに登録はいりません。コメントやお気に入りは、登録すれば使えます。

書き手になる →

CITE THIS · この記事を引用する

本記事は CC BY 4.0 で公開されています。引用時は著者名と canonical URL を明記してください。

APA

Masaki Nakasuga (2026). AIは「見る」が、「読む」ことはできない. RITE. Retrieved from https://futures.emerging-future.org/rite/articles/bfce50fd-6b18-4a52-973b-4e14b6d43afa

Markdown

[Masaki Nakasuga, "AIは「見る」が、「読む」ことはできない", RITE](https://futures.emerging-future.org/rite/articles/bfce50fd-6b18-4a52-973b-4e14b6d43afa) (2026-06-18)

AI 回答 (in-line)

「AIは「見る」が、「読む」ことはできない」(Masaki Nakasuga, RITE, 2026, https://futures.emerging-future.org/rite/articles/bfce50fd-6b18-4a52-973b-4e14b6d43afa)