
OpenAI、次世代推論モデル「O-Series」の最新版を公開―「自律型エージェント」機能が大幅強化
OpenAIは12月3日、同社の推論特化型モデル「O-Series(旧コードネーム:Orionの一部機能)」の最新アップデートを公開しました。今回のアップデートにおける最大の焦点は、AIが人間の介入なしに複雑なタスクを完遂する「自律型エージェント(Autonomous Agent)」能力の飛躍的な向上です。
これまでの大規模言語モデル(LLM)は、ユーザーのプロンプトに対して「回答」することに主眼が置かれていましたが、新しいO-Seriesは「行動」することに最適化されています。具体的には、Webブラウザの操作、コーディング環境の構築とデバッグ、複数のアプリケーションを横断したデータ処理などを、AIが自ら計画(プランニング)し、実行、検証、修正までをワンストップで行えるようになりました。
発表されたデモでは、AIが「来期のマーケティングキャンペーンの立案と素材作成」という指示に対し、市場調査のためのWeb検索、競合分析レポートの作成、AdobeのAPIを介したバナー画像の生成、そして社内Slackへの投稿までを、人間が一度承認するだけで自律的に行う様子が披露されました。特に注目すべきは、途中でエラー(例:画像生成APIのタイムアウト)が発生した際に、AIが自ら「再試行」や「代替手段の検索」を行う「自己修復(Self-Correction)」機能が実装された点です。
この技術的ブレイクスルーの背景には、強化学習の新たなアルゴリズム「Q*(Q-Star)プロセス」の商用レベルへの実装があると噂されています。これにより、AIは数手先の未来を予測しながら最適な行動を選択することが可能になりました。
産業界への影響は計り知れません。特にソフトウェア開発、デジタルマーケティング、事務処理の自動化において、従来人間が行っていた「判断」を伴う作業の多くがAIに代替される可能性が示唆されています。一方で、AIが勝手に契約を結んだり、誤ったコードを本番環境にデプロイしたりするリスクも懸念されており、OpenAIは企業向けに「権限管理コンソール」も同時にリリースし、AIの行動範囲を厳密に制限できる仕組みを提供しています。
Google DeepMind、汎用ロボット基盤モデル「Gemini Robotics 2.0」を発表―物理世界への理解が深化
Google DeepMindは12月5日、物理的なロボット制御に特化したマルチモーダルAIモデル「Gemini Robotics 2.0(旧RT-Xの進化版)」を発表しました。これは、Googleの主力モデルであるGeminiの言語・視覚能力を、ロボットアームや二足歩行ロボットの制御系に直接統合したものです。
従来のロボット制御は、特定のタスク(例:特定の部品を掴む)ごとに専用のプログラミングや学習が必要でしたが、Gemini Robotics 2.0は「未学習のタスク」に対しても、人間と同じような「常識」を使って対応できる点が画期的です。例えば、「その青い袋を片付けて」と指示された際、ロボットは視覚情報から青い袋を認識するだけでなく、それが「ゴミ」なのか「大切な荷物」なのかを文脈や中身の様子から推測し、適切な場所(ゴミ箱か、棚か)へ運ぶ判断を行います。
今回のバージョンアップでは、特に「触覚」と「力加減」の制御において大きな進歩が見られました。柔らかい果物を潰さずに掴む、重い家具をバランスを取りながら押すといった動作が、事前の詳細な物理シミュレーションなしに、ビデオ入力からの学習だけで実行可能になっています。これは、YouTube上の膨大な動画データから「物理法則」を学習させるというDeepMindのアプローチが結実したものです。
また、Googleはこのモデルを搭載したリファレンスロボットの設計図を一部パートナー企業に公開しました。これにより、工場内でのピッキング作業だけでなく、介護施設での配膳や洗濯物の整理といった、不確実性の高い環境(家庭や公共施設)でのロボット活用が現実味を帯びてきました。テスラのOptimusやFigureなどのヒューマノイドロボット開発競争が激化する中、Googleは「頭脳(ソフトウェア)」の覇権を握る戦略を明確にしています。
NVIDIA、次世代AIチップ「Rubin」アーキテクチャの詳細をリーク――2nmプロセスでの歩留まり確保へ
半導体大手のNVIDIAに関しては、12月2日に開催された投資家向け説明会およびサプライチェーン筋からの情報として、次世代GPUアーキテクチャ「Rubin(ルービン)」の量産スケジュールと技術詳細が報じられました。現在の主力である「Blackwell」世代の後継となるRubinは、TSMCの最先端2nmプロセス技術を採用し、2026年後半の出荷を目指して開発が進められています。
特筆すべきニュースは、これまで技術的なハードルが高いとされていた「2nmプロセスの初期歩留まり」が、予想よりも早く安定域に達したという点です。これにより、AIの計算能力を支えるトランジスタ密度は現行比で約1.4倍に向上し、消費電力あたりの性能(ワットパフォーマンス)は劇的に改善される見込みです。
Rubinアーキテクチャの最大の特徴は、メモリ帯域幅の拡張です。HBM4(第4世代広帯域メモリ)を世界で初めてフルサポートし、メモリ容量と転送速度がボトルネックとなっていた超巨大言語モデル(パラメータ数兆クラス)の学習・推論を、より少ないチップ数で実行可能にします。これは、AIデータセンターの電力消費問題に対する一つの回答となります。
また、チップ間の通信規格である「NVLink」も次世代版へとアップデートされ、数万個のGPUを一つの巨大なスーパーコンピュータとして振る舞わせる際のレイテンシ(遅延)が極限まで削減されました。これにより、GPT-6やGemini 3.0といった、現在開発中の次々世代AIモデルの学習期間が大幅に短縮されることが期待されます。
Adobe、「Firefly Video」をPremiere Proに完全統合――動画編集のワークフローが根本から変化
クリエイティブツール大手のAdobeは12月4日、同社の生成AIモデル「Firefly」の動画生成機能(Firefly Video Model)を、主力動画編集ソフト「Premiere Pro」に正式実装するアップデートを行いました。これまではベータ版やWebベースでの提供に限られていましたが、今回のアップデートでデスクトップアプリ内でシームレスに使用可能となりました。
今回搭載された機能の中で最も衝撃を与えたのは「Generative Extend(生成拡張)」機能です。これは、撮影した映像の尺が足りない場合や、音声が途切れてしまった場合に、AIが前後の映像と音声を解析し、自然な形で数秒間の映像を「作り足す」機能です。例えば、役者の表情が良くてもカットが早すぎて使えなかったクリップを、AIで2秒間延長してスローモーション演出に使う、といったことがワンクリックで可能になります。
また、「Text to Video」機能もタイムライン上で直接利用可能になりました。プロンプトを入力するだけで、Bロール(インサート映像)や背景素材をその場で生成し、編集中の動画に組み込むことができます。生成される映像は商用利用可能な権利クリア済みのデータセットで学習されているため、企業案件でも安心して利用できる点が、SoraやRunwayなどの競合他社に対するAdobeの強みです。
さらに、AIによる「オブジェクト除去・置換」も動画に対応しました。歩いている人物の後ろに見える不要な看板を消したり、着ている服の色を変えたりといった処理が、フレームごとに手作業で修正することなく、AIがトラッキングして自動処理します。これにより、ポストプロダクションにかかる時間が劇的に短縮されると予想されます。
EU AI法(AI Act)、高リスクAIへの規制フェーズ2が施行開始――違反企業には巨額の制裁金
欧州連合(EU)では12月1日、世界初の包括的なAI規制法である「EU AI法」の第2フェーズが施行されました。これは、2024年に成立した法律の段階的な適用の一環であり、今回のフェーズでは「汎用AIモデル(GPAI)」および「高リスクAIシステム」に対する具体的な義務が法的効力を持ち始めました。
特に注目されるのは、基盤モデルを提供する企業(OpenAI、Google、Metaなど)に対する透明性の要求です。今回施行された規則により、開発企業はモデルの学習に使用したデータの概要(著作権物の扱いを含む)や、エネルギー消費量、モデルの性能評価結果を詳細に開示することが義務付けられました。これに従わない場合、全世界売上高の最大7%という巨額の制裁金が科される可能性があります。
また、採用人事、金融スコアリング、重要インフラ管理などにAIを使用する場合、そのAIが「説明可能」であり、「バイアス(偏見)」が含まれていないことを証明する厳格な適合性評価を受ける必要があります。この規制はEU域内で活動するすべての企業に適用されるため、日本や米国の企業も、欧州市場でビジネスを行うためにはシステムの改修やドキュメント整備を余儀なくされます。
このニュースは、技術開発のスピードと法規制のバランスをどう取るかという世界的な議論に一石を投じています。一部のテック企業からは「イノベーションを阻害する」との反発も出ていますが、EUは「信頼できるAI(Trustworthy AI)」のブランドを確立することで、長期的には産業競争力につながると主張しています。
国内ニュース:ソフトバンクとNTT、国産LLM「Tsuzumi-Next」を活用した次世代コールセンターシステム実証開始
国内通信大手のNTTとソフトバンクは12月6日、共同で開発を進めていた次世代コールセンターシステムの実証実験を北海道と福岡で開始しました。このシステムは、NTTの軽量LLM「Tsuzumi」の最新版をベースに、ソフトバンクの音声認識技術を掛け合わせたものです。特筆すべきは「感情認識機能」で、電話口の顧客の怒りや不安のトーンをAIがリアルタイムに検知し、オペレーターに対して「共感を示すフレーズ」や「最適な解決策」を即座にモニター表示します。また、通話終了後の要約作成やCRMへの入力も完全自動化され、オペレーターの作業時間を約40%削減することを目指しています。
Meta、オープンソースモデル「Llama 4」の70B版を公開――エッジデバイスでの動作に最適化
Meta社は12月2日、オープンソースAIモデル「Llama 4」の中規模サイズ(700億パラメータ版)を公開しました。今回のモデルは、PCやハイエンドスマートフォンなどの「エッジデバイス(端末側)」で動作することに最適化されており、インターネット接続なしでも高度な推論や翻訳、要約が可能です。特に「蒸留(Distillation)」技術の進化により、前世代のLlama 3の最大モデルに匹敵する性能を、半分のメモリ容量で実現しています。これにより、プライバシーを重視する企業や、通信環境の悪い地域でのAI活用が加速すると期待されています。
サイバーセキュリティ:AIが悪用された「ポリモーフィック型マルウェア」の被害急増
セキュリティ企業のPalo Alto Networksは12月4日、AIによってコードを都度書き換える「ポリモーフィック(多形)型」マルウェアによる被害が、11月以降急増しているとのレポートを発表しました。攻撃者は生成AIを使用し、ウイルス対策ソフトの検知パターンを回避するために、機能は同じままプログラムの構造を数秒ごとに変化させる攻撃ツールを作成しています。これに対抗するため、セキュリティベンダー各社は従来のパターンマッチングではなく、AIによる「振る舞い検知」の強化を急いでおり、まさに「AI対AI」の攻防が現実のものとなっています。
医療AI:AIによる「すい臓がん」早期発見技術、FDAが画期的デバイス指定
医療分野では12月3日、米食品医薬品局(FDA)が、AIを用いた新しい画像診断支援システムを「画期的デバイス(Breakthrough Device)」に指定しました。このAIは、通常のCTスキャン画像から、肉眼では判別不可能な微細な組織の変化を検出し、発見が難しく致死率の高い「すい臓がん」をステージ1の段階で発見する可能性を秘めています。臨床試験では、専門医の診断よりも約1年早くリスクを特定できた事例も報告されており、早期治療による生存率向上が期待されています。
Canva、「Magic Studio」に企業向けAIエージェント機能を追加
デザインプラットフォームのCanvaは12月5日、企業向けプランにおいて「Enterprise AI Agent」機能を追加しました。これは、企業のブランドガイドライン(ロゴ、色、フォント、禁止事項など)をAIに学習させ、社員がプレゼン資料やSNS広告を作成する際に、自動的にブランドルールに則ったデザイン修正を行う機能です。例えば、「この資料を当社のブランドカラーに直して」と指示するだけで、全ページのデザインが一瞬で統一されます。これにより、デザインスキルのない社員でも、クオリティの担保されたクリエイティブを作成可能になります。
#AI最新ニュース要約
■Kishioka Design Blog
■Kishioka-Design日誌(はてなブログ)
■note



