December 10, 2025
【東大・暦本研】AIは「効率」から「表現」のパートナーへ。NeurIPS 2025にて、マンガ制作支援と芸術的ロボットのCreative AI論文が2件発表[UTokyo Rekimoto Lab] AI as a Partner for "Expression" rather than "Efficiency": Two Creative AI Papers on Manga Creation and Artistic Robots Presented at NeurIPS 2025 Creative AI Session~ "Breathing Soul into Manga via Performance" and "A Pixel Cloud that Embraces Imperfection" ~
タイトル
【東大・暦本研】AIは「効率」から「表現」のパートナーへ。NeurIPS 2025 Creative AI Trackにて、マンガ制作支援と芸術的ロボットの論文が2件採択~「演技で魂を吹き込むマンガ生成」と「不完全さを愛でるピクセル雲ロボット」~
要約
東京大学大学院情報学環 暦本純一研究室(特任助教 Qing Zhangら)の研究チームは、「NeurIPS 2025」のCreative AI Trackにおいて、2件の論文が発表されました。 1つ目は、画像生成AIが苦手とする「マンガの微細な表情」を、作者自身の顔演技(パフォーマンス)によって直感的に生成・制御するワークフロー「Panel-by-Panel Souls」です。2つ目は、あえて低解像度な「ピクセル」形状のバルーン型ロボットが、高度なセンサーを使わず大規模言語モデル(MLLM)の視覚と言語能力だけで「詩的」かつ「不器用」に浮遊するアート作品「Semantic Glitch」です。これらは、AIを単なる自動化ツールではなく、人間の創造性を拡張するパートナーや、新たな美的体験を生む存在として捉える「Human-AI Co-creation(人間とAIの共創)」の新たな可能性を示すものです。

詳細な研究内容
【研究1:Panel-by-Panel Souls】演技でマンガに魂を吹き込む
現在のText-to-Image(テキストからの画像生成)モデルは高品質な絵を描けますが、マンガのストーリーに不可欠な「疑念の混じった目」や「後悔を含んだ笑み」といった微細なニュアンスを一貫して出力することは困難でした。本研究では、この課題を解決するために、作者自身がWebカメラに向かって演技をし、その表情をリアルタイムでマンガのキャラクターに投影する「デュアル・ハイブリッド・パイプライン」を開発しました。
- 特徴: 既存の生成AI画風を維持したまま、作者の「演技」という身体的パフォーマンスを通じて、キャラクターに直感的に「魂(Soul)」を吹き込むことができます。
- 成果: テキストプロンプトでは表現しきれない感情の機微を、修正の手間なくパネルごとに一貫して生成することに成功しました。

【研究2:Semantic Glitch】不完全さを愛でる「弱いロボット」
従来のロボット工学が追求してきた「正確さ」や「効率」とは対照的に、本研究では「弱さ」や「不完全さ」をテーマにした浮遊ロボットを開発しました。
- 特徴: 3Dピクセル形状のバルーン型ロボットで、LiDARなどの距離センサーを持たず、カメラ映像を大規模言語モデル(Gemini)が解釈して動作します。
- 動作原理: ロボットは自身の視界を「詩的」に解釈(例:「優雅に螺旋階段を眺めるために漂う」)しながら飛行します。自身の身体の大きさを正確に把握していないため、時折ぶつかったり迷ったりしますが、その「不器用さ(Glitch)」が観客の共感(Empathy)を喚起します。
社会的意義・今後の展望
生成AIの普及に伴い「画一化」や「人間の代替」が懸念される中、本研究成果は2点とも「人間中心のAI活用」を提示しています。マンガ生成技術は、AIによる省力化とアーティスト固有の作家性(身体性)の両立を実現し、クリエイターの表現の幅を広げます。ピクセル雲ロボットは、完璧な機械ではなく、不完全で愛らしい「コンパニオン」としてのロボットのあり方を提示し、人間とAIの新しい情緒的な関係性を築きます。
English Version:
Title:
[UTokyo Rekimoto Lab] AI as a Partner for “Expression” rather than “Efficiency”: Two Creative AI Papers on Manga Creation and Artistic Robots Presented at NeurIPS 2025 Creative AI Session~ “Breathing Soul into Manga via Performance” and “A Pixel Cloud that Embraces Imperfection” ~
Summary
A research team led by Project Assistant Professor Qing Zhang at the Rekimoto Lab, Interfaculty Initiative in Information Studies, The University of Tokyo, has had two papers accepted to the Creative AI Track at NeurIPS 2025.
The first paper, “Panel-by-Panel Souls,” introduces a workflow that allows artists to generate nuanced facial expressions in manga by “performing” them via webcam, bridging the gap between text prompts and emotional storytelling. The second paper, “Semantic Glitch,” presents a “lo-fi” floating robot installation. Rejecting conventional sensors for a Multimodal Large Language Model (MLLM), the robot navigates based on a “poetic” and qualitative understanding of its environment, embracing clumsiness to evoke empathy. Both works demonstrate the potential of “Human-AI Co-creation,” where AI serves not just as an automation tool, but as a partner that expands human creativity and creates new aesthetic experiences.
【Paper 1: Panel-by-Panel Souls】Breathing Soul into Manga via Performance Current Text-to-Image models can generate high-quality art but struggle to consistently render the subtle, coordinated facial dynamics required for manga storytelling (e.g., a “knowing glance” or “smile tinged with regret”). This research introduces a “dual-hybrid pipeline” to bridge this “nuance gap.” The system captures the artist’s own facial performance via a webcam and projects these expressions onto manga characters in real-time.
- Key Feature: It combines the efficiency of Generative AI with the artist’s unique “performance” (physicality), allowing them to intuitively infuse “souls” into characters panel-by-panel.
- Result: The workflow enables consistent emotional expression across sequential panels without the laborious process of manual redrawing.
【Paper 2: Semantic Glitch】The “Weak Robot” that Embraces Imperfection In contrast to mainstream robotics which pursues metric precision and efficiency, this project explores the creative potential of a deliberately “lo-fi” approach.
- Features: The robot is a soft, helium-filled blimp shaped like a 3D pixel cloud—a “physical glitch”. It rejects sensors like LiDAR or SLAM.
- Mechanism: It relies solely on a camera and a Multimodal Large Language Model (Gemini). The AI interprets the visual scene “poetically” (e.g., “To gracefully turn and admire the elegant spiral”) to navigate. Lacking precise knowledge of its own body size, it occasionally bumps into things or drifts uncertainly. This “clumsiness” (glitch) is a design feature that transforms the robot into a relatable, creature-like companion.
Social Impact & Future Outlook
As Generative AI raises concerns about “stylistic homogenization” and the replacement of human labor, these two projects propose a human-centric vision of AI. The manga creation support system demonstrates how AI can empower creators by integrating their physical performance, rather than replacing them. The pixel cloud robot suggests a future where robots are not just perfect servants, but imperfect, empathetic companions that enrich our environment through their unique “character”.
