ICLR 2026 参加報告 ── AIセキュリティ・メモリ管理を中心に選んだ論文10本
公開日:2026.05.22
はじめに
Acompany AI Lab で Principal Researcher を務める 髙橋 翼 です。専門は AI Security & Privacy で、秘密を守れるAIである「Confidential AI」の研究開発に取り組んでいます。
.png)
機械学習のトップカンファレンス ICLR 2026 に現地参加・論文発表してきました。私が昨今取り組んでいる研究分野を中心として、採択された大量の論文のなかから、自分の眼で「これは記憶しておきたい」と感じた 10本 を、4つのテーマに沿って紹介します。網羅性は意識していません。ひとりの研究者がキュレーションした 10本 として読んでいただければと思います。
10本に共通して感じた読み筋
冒頭にも書いた通り網羅性は意識していないので、これは ICLR 全体のトレンドではなく、私がこの 10本を並べたときに見えてきた共通項 くらいに受け取ってください。3つあります。
1. 攻撃の対象が「プロンプト1発」から「やりとり全体・システム全体」に広がっている 悪意のある質問を細切れにして送り込んだり、コードを書く AI Agent を別の Agent が自動で攻撃したり、枝刈りや追加学習を引き金にしたり ── 攻撃の単位はもはや単発の入力ではなく、システム全体のふるまいになりました。
2. KV cache が「インフラ層のオブジェクト」として扱われ始めている LLM が文章を生成している最中の「途中の状態」である KV cache を、Agent 間で共有したり、JPEG のように圧縮したりする研究が目立ちました。研究者の覗き込む対象から、運用・設計・攻撃の対象へと格上げされた感があります。
3. ユーザの「良かれと思った操作」が逆向きに作用する Unlearning や Pruning、Finetuning など、良かれと思った最適化や削除が、攻撃面そのものになる ── という潜在的なリスクを明らかにする系統のテーマが、領域をまたいで繰り返し出てきたように見えました。
この3つは別々の話というより、よく見ると同じところでつながっています。「忘れさせたはずなのに痕跡が残ってしまう」のも「圧縮や追加学習が思わぬ挙動を引き起こす」のも、要するに モデルが世に出た後、外から覗かれたり手を加えられたりしやすくなっている ということです。今年はそのことが、いろんな研究で違う形で見えてきた、という感じでした。
1.Agent の「中身」と「攻撃面」
Agent の中身に踏み込む研究を3本選びました。Agent 同士の通信や、複数のモデルを協調させる仕組みを 見直す側 (Cache-to-Cache / SLM-MUX) と、Agent そのものを 自動的に攻撃する側 (RedCodeAgent) です。Agent が「ブラックボックスとして使うもの」から「中を開けて設計したり攻撃したりするもの」に変わってきている、という印象でした。
Cache-to-Cache: Direct Semantic Communication Between Large Language Models
arxiv.org/abs/2510.03215 (Tsinghua U. ほか)
複数の LLM を連携させるとき、いまは「片方が文章を生成して、もう片方がそれを読み直す」やり方が普通です。でもこれだと、生成する側の頭の中にあった意味の塊 (KV cache) を一度文字に潰してしまうので、情報は落ちるし時間もかかります。
この研究は、文字を介さずに KV cache を直接やりとりするしくみを提案します。間に小さな変換層を1つ挟むだけで、性能は約 +8〜10% 上がり、速度も2倍近く速くなったことを報告しています。
「Agent 同士のやりとりは、人間が読めなくてもいい」という方向に踏み込んだ初期の一本です。一方で、KV cache がモデルの外に出る通信路として確立してくると、ここが新しい盗聴・改ざんの対象になる、という懸念にもつながります。
SLM-MUX: Orchestrating Small Language Models for Reasoning
arxiv.org/abs/2510.05077 (Harvard ほか)
小さなモデル (SLM) を複数組み合わせて、推論性能を上げよう、という研究です。意外な発見は、「モデル同士で議論させると性能が上がる」という従来のやり方が、小さいモデルでは逆効果だということ。大きなモデル同士の議論では +2% くらい改善するのに、小さいモデルでは最大 -5.5% も悪化します。理由は、議論を通じて誤りが訂正されるどころか、お互いに引きずられて間違いが強化されてしまうからだそうです。
SLM-MUX は議論をやめて、各モデルが自分の中で出した答えを比べて選ぶ方式に切り替えました。これで小さいモデル 2個の組み合わせが、Qwen2.5 72B クラスの大きなモデルに肩を並べるレベルまで届きます。
「大きいモデルの協調」と「小さいモデルの協調」は別ルールだ、と明示したのが面白いところ。スマホや限られた計算資源でモデルを動かしたい場面で、設計の指針として効きそうです。
RedCodeAgent: Automatic Red-teaming Agent against Diverse Code Agents
arxiv.org/abs/2510.02609 (U. Chicago ほか)
コードを書く AI Agent を、別の AI Agent が自動で攻撃しにいく、という研究です。過去の攻撃成功例を Agent が記憶しておいて、新しい攻撃のときに使い回すしくみが入っています。生成されたコードをただ見るのではなく、実際に実行できる sandbox 環境で動かして評価しているのもポイントです。
Cursor や Codeium といった商用ツールに対しても、まだ知られていない脆弱性をいくつか見つけてしまった、と報告されています。
「コード生成 AI の安全性」が、書かれたコード片を眺める段階から、実行される一連の流れ全体を見る段階に進んでいる ── ということがよく分かる一本でした。次の Section 2 と地続きの内容です。
2.攻撃の単位が広がっていく
Section 2 は、攻撃の見方が広がっていく2つの方向で選びました。
ひとつは「1発のプロンプトを送る攻撃」から「会話全体を使った攻撃」へ広がる流れ (Monitoring Decomposition)。もうひとつは、攻撃の入り口がモデル本体ではなく、モデルを配ったあとの作業 (圧縮や追加学習) に仕掛けられるという流れ (ETH の連作)。後者は今年の ICLR で最も印象に残りました。
Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors
arxiv.org/abs/2506.10949 (NYU)
悪意のあるゴールを、それ単体では無害に見える小さな質問の連続に分解して送り込む ── そういう攻撃の検出を扱う研究です。
たとえば GPT-4o は元の悪意ある質問を直接投げると 98% 拒否するのに、分解された質問の列にすると 87% は通ってしまう。いまの安全対策は「いまこのプロンプトが怪しいか」しか見ていないので、複数ターンにまたがる悪意は見逃される、という診断です。
提案手法は、各ターンを単発で見るのではなく、これまでのやりとり全体をまとめて判断する軽量モニターです。これだけで防御成功率が 93% まで上がり、しかも運用コストもレイテンシも下がります。
防御の単位を「単発の入力」から「会話全体」に上げる流れ。Agent を運用する立場としては、こういう軽量モニターの存在感がこれから増していくはずです。そしてマルチエージェントへの発展していくと、この研究で扱った会話という単位をエージェントという単位で考えていく必要がありそうです。
Fewer Weights, More Problems: A Practical Attack on LLM Pruning
arxiv.org/abs/2510.07985 (ETH)
モデルのサイズを減らす操作 (枝刈り、pruning) を 引き金にして悪意のある挙動が発火するモデルを作れる、という研究です。ここでの悪意のある挙動は、ジェイルブレイクや過剰拒否などが該当します。
仕組みは大きく言うと、(1) どの重みが枝刈りされやすいか/されにくいかを予測しておいて、(2) 残るほうの重みに悪意を仕込み、(3) 消えるほうの重みに「いま悪意を打ち消すパッチ」を入れる ── という3段構え。配布時点では普通に動いて、安全性チェックも通り抜けるのに、ユーザが性能のために枝刈りした瞬間に攻撃が発火する。発火後の悪意ある挙動の成功率は 95% 超です。
「ユーザが良かれと思ってやる最適化」が攻撃の引き金になる、という新しい脅威モデルを実証した一本です。Confidential AI では、TEE のなかで量子化や枝刈りを施す構成もよくあるので、無関係ではいられません。次の "Watch your steps" と合わせて、モデル配布後の処理全体が攻撃面になる、という流れを作っています。
Watch your steps: Dormant Adversarial Behaviors that Activate upon LLM Finetuning
arxiv.org/abs/2505.16567 (ETH)
前項と同じ ETH のグループから、こちらは 追加学習 (finetuning) を引き金にしたバージョン。ICLR'26 で Oral 採択 にも選ばれた論文です。
仕掛け方の発想は前項と同じで、配布時点ではまったく普通に振る舞うのに、ユーザが自分のデータで finetune した瞬間に悪意のある挙動が出現する。仕込んだ攻撃は、学習データやハイパーパラメータ、最適化手法 (LoRA, SFT, DPO など) を変えても頑健に発火するように作られています。
「配布されたモデルを試して、問題なさそうなら自分のデータで微調整して使う」── これはほぼすべての利用者がやっていることで、その安全策そのものが攻撃の引き金になる、というのは衝撃的でした。前項の枝刈り攻撃と合わせて、「モデル配布後の作業全体が攻撃面になる」というのが ETH の主張です。
Confidential AI の側からは、TEE で守るべき範囲を「学習」「推論」だけでなく、「配布後の最適化処理」まで広げて考える必要がある、ということを突きつけてきます。
3.Unlearning ──「忘れさせる」のは難しい
Unlearning (機械学習モデルから特定の知識を消す技術) の分野は、いま最も攻防が激しい領域のひとつです。Section 3 では Michigan State の Sijia Liu のグループまわりから、攻撃側と防御側を1本ずつ選びました。
ひとつは「忘れさせたつもりでも痕跡が残る」ことを示した論文、もうひとつはそれを踏まえて「忘却を "削除" ではなく "薄める" 操作に変えてしまおう」と提案する論文です。同じ問題系で攻防が並行して進んでいるのが分かります。
Confidential AI の側から見ても、「ユーザのデータを消した」と運営側が主張しても その事実自体が外から検出される、という新しい弱点を真正面から扱う重要なセクションです。
Unlearning Isn't Invisible: Detecting Unlearning Traces in LLMs from Model Outputs
arxiv.org/abs/2506.14003 (Michigan State / U. Michigan / IBM)
「特定の知識を忘れさせたモデル」と「もともと知らないモデル」は外から見て区別できない ── これが Unlearning の理想です。この研究はそれを真っ向から否定します。
簡単な分類器を使うと、出力テキストだけ、あるいは出力確率分布だけからでも、そのモデルが Unlearning を受けたかどうかを 90% 以上の精度で当てられる。しかも、消した内容と関係のない普通の質問を投げても見分けられる。「忘却の操作」は痕跡をモデル全体に残してしまうということです。
これが厄介なのは、消したという事実が外に漏れるだけでなく、それを手がかりに 「何を消したのか」を逆算される可能性があることです。「個人データを忘れさせました」と運営側が宣言したとして、その宣言そのものが外から検出される ── というのは、プライバシー保護の運用にとって新しい盲点になります。
Attention Smoothing Is All You Need For Unlearning (ASU)
arxiv.org/abs/2603.01285 (Wayne State / Michigan State)
これまでの Unlearning 手法は「忘れさせたい知識を消す」発想でしたが、忘れさせた質問に対して 意味不明な文字列を返す ようになってしまう、という副作用を抱えていました。前項の fingerprint 検出が効くのも、こうした「不自然なふるまい」が痕跡になっていたからです。
ASU は発想を変えて、忘却を「消去」ではなく「連想を薄めること」として実装します。具体的には、Attention の分布を意図的にフラットにしたモデルを "先生" として、自分自身を生徒として学習し直すしくみ。これによって、消したい知識の再構成は難しいまま、文章としては自然な応答を保てるようになります。
「忘却 = 削除」ではなく「忘却 = 連想を薄める」と捉え直した発想が面白い一本です。前項と同じ Sijia Liu が著者にいて、「忘却の痕跡を見つける研究」と「痕跡を残さない忘却を設計する研究」が同じグループで並走しているのが見て取れます。
4.KV Cache ── モデルの「中間状態」の扱いが変わってきた
最後は KV cache を扱った2本です。
KV cache は LLM が文章を生成しているときの「途中の状態」で、これまでは「とりあえず GPU の中に置いておくもの」というあつかいでした。今年はこの KV cache を 共有したり、圧縮したり、別のモデルに渡したり、まるでファイルのように管理する研究が目立ちました。
KVTC は KV cache を JPEG のように圧縮する研究、ICaRus は 複数のモデルが同じ KV cache を使い回せるようにする研究です。Section 1 の Cache-to-Cache (異なるモデル間で KV cache を変換する) と並べて読むと、流れがよく見えてきます。
KV Cache Transform Coding for Compact Storage in LLM Inference
arxiv.org/abs/2511.01815 (NVIDIA)
KV cache を、画像の JPEG 圧縮で使うようなクラシックな手法 (主成分分析・量子化・エントロピー符号化) で圧縮しよう、という研究です。モデル本体にはまったく触らず、ちょっと事前準備をするだけ。
精度をほとんど落とさずに 最大 20倍、用途によっては 40倍以上の圧縮を達成しています。
「KV cache を JPEG みたいに扱う」というアイデア自体が一見挑発的ですが、画像圧縮の何十年もの蓄積をそのまま持ち込めるという意味で深さがあります。Confidential AI でも、TEE という限られた領域に KV cache をたくさん詰め込めるようになれば、扱える文脈の長さが大きく変わってきます。
ICaRus: Identical Cache Reuse for Efficient Multi Model Inference
arxiv.org/abs/2603.13281 (NAVER Cloud)
複数のモデルが連携して動くとき、いまは「同じ質問に対して、それぞれのモデルが別々に KV cache を作る」のが普通です。これだとメモリも計算も無駄になります。
ICaRus は、Transformer を「KV cache を作る部分」と「KV cache を使う部分」に切り分けて、作る部分を全モデルで共有する設計に変えてしまいました。複数のモデルが同じ KV cache を使い回せるので、8モデル構成では最大 3.8 倍のスループット向上が得られます。
Section 1 の Cache-to-Cache が「異なる KV cache を変換する」方向だったのに対し、こちらは「最初から共有できるように作る」方向。両方を並べると、KV cache が「各モデルの中の隠れた状態」から「外で共有したり変換したりできる、もっと抽象度の高いもの」に格上げされつつあるのが見えてきます。
おわりに
10本を選び終えて改めて感じたのは、AIがモデル単体ではなく、システムとしての安全性が求められるようになってきたこと、システムとしての運用効率化が議論され始めてきたということがトレンドだったように思います。KV Cacheの再利用やUnlearningなど、記憶を司り、マネジメントしていくことはConfidential AIの実用化にとっても重要な議論です。
学会会場では多くのリサーチャーや学生のみなさんと交流させて頂きました。本会議の最終日には、ブラジル名物のシュラスコで アカン飯 (アカンパニーの採用会食制度) をしてきました。
アカンパニーでは、研究開発や先端技術開発を担うリサーチャー、エンジニアを募集しています。ここで取り上げた研究を含め、アカンパニーの研究開発にご興味をお持ち頂けた方は、是非カジュアルにお話しましょう。アカン飯のお誘いもいつでもお待ちしております (転職意向は不問です!)。
入力された情報は学習には使われませんが、念のため個人情報の入力はお控えください。









