・ローカルAI「Gemma 4」に最新の「12B」モデルが登場し、手元のMac miniでの実用性が飛躍的に向上
・パラメータ数の違い(4Bと12B)がもたらす、動作の軽快さと賢さの「絶妙なトレードオフ」
・対等な条件で検証して見えてきた、E4Bと12Bの「本気の描写力」の差
「ちょうどいいサイズ」がやってきた
ローカルLLM(Gemma 4 E4B)をMac mini M4に住まわせ、それを使って写真とブログのデータベース(第二の脳)を構築したお話をしました。
無給で不平不満も言わずに働き続けてくれるデジタルな小作人(ローカルAI)を手に入れてホクホクしていたところですけど、技術というものはまさに日進月歩。
つい先日、Googleの最新オープンモデル「Gemma 4」の追加ラインナップとして、新しく「12B」というサイズがリリースされたんです。
これまで使っていた「E4B」と、新顔の「12B」。
この二つの何が違うのかというと、ポイントは後ろにくっついている「B」の前の数字にあります。
3倍の脳みそがもたらす知能のジャンプ
「B」というのは「Billion(10億)」の略だそうで、AIのパラメータ数(脳細胞の接合部のようなもの)を表しています。
つまりE4Bは40億クラスの脳みそ、12Bは120億クラスの脳みそを持っているということです。
たとえば、チンパンジーの脳の重さが約400グラム、人間の脳が約1300グラムとだいたい3倍強の差があるので、4Bと12Bの差もそんな感じでしょう。
単に「少し賢くなった」というレベルではなく、扱える世界の複雑さや表現の豊かさが一段階跳ね上がるイメージです。
ただし、賢くなる代償として、動かすために必要なパソコンのメモリ(RAM)の消費量と処理パワーが必要になります。
ローカルAIを快適に走らせるためには、この「賢さ」と「動作の軽快さ」のギリギリの妥協点を見極めるのが何より重要なんです。
以前、さらに巨大な「26B」モデルをこのMac mini M4(メモリ24GB)で動かしてみたことがあるんですけど、結果は散々。
Macの動作がカクカクになり、ローカルAIが思考している間は、PCがフリーズしたようになって他の作業は何もできず…
少々調子に乗りすぎたと反省です。
そこでスリムで爆速な「E4B」を使っていたわけですけど、今回の「12B」はまさにその間を埋めてくれる、絶妙に「ちょうどいいサイズ」っぽいんです。
まあ、これ以上何がどう凄いのかといった学術的・技術的な詳細については、素人の私には上手く説明できず。
詳細に知りたい方はネットで調べていただくとして、ここではその「果実」がどれほど甘いのか、実食検証してみることにしましょう。
検証1:藤の花とスカイツリー(簡易スキャンと本気の詳細描写)
ものは試しにと、手元にある写真(私が撮影したもの)2枚をピックアップし、E4Bと12Bそれぞれに「何が写っているか解析して」と投げてみました。
まず1枚目はこれ。
木製のパーゴラ(つる棚)に鮮やかな紫色の藤の花が垂れ下がり、その奥にスカッと晴れ渡った青空と東京スカイツリーがそびえ立っている風景写真です。
実は、事前にデータベースへ登録された自動抽出データ(簡易スキャン)では、E4Bは「テーマ:nature、キーワード:青空、紫陽花、東京タワー」と誤回答。
藤の花を「紫陽花」と言い、スカイツリーを「東京タワー」と言い張る大雑把さがあったんです。
でもこれは簡易的なプロンプトでの話。
「本気でこの写真を詳細に描写して」と頼む詳細描写プロンプトを投げてみました。
【E4B】
この写真の最大の主役は、前景から中景にかけてフレーム上部から豊かに垂れ下がる、見事な紫色の藤の花。
花々は満開に近い状態であり、幾重にも連なって美しくシダレながら、木製のパーゴラ(トレリス状の棚)から吊り下げられています。
この木製の構造物は、経年変化を感じさせる深いブラウンの木目を残しており、自然物(花)と人工物(木製フレーム)の絶妙な調和を醸し出しています。
そして遠景には、完璧なコントラストとして、青空を背景にそびえ立つ近代的なランドマーク「東京スカイツリー」が配されています。
スカイツリーはその直線的でメタリックなフォルムをシャープに表現しており、手前の藤の花の有機的な曲線美と色鮮やかさを引き立てる背景(借景)として完璧に機能しています。
…あれ、E4B、意外としっかり見てますね。
簡易スキャンではスカイツリーを「東京タワー」と言い間違えていたくせに、詳細な描写を求めると「東京スカイツリー」であると正しく認識。
更にはパーゴラ(木製のつる棚)と藤の花の有機的な調和まで、しっかりと言葉にできています。
では、同じプロンプトで、新顔の「12B」に読み込ませた結果はどうでしょう。
【12B】
本画像は、前景に紫色の藤の花が咲き誇る木製のパーゴラ(トレリス)を配置し、遠景に東京スカイツリーを配した構図です。青い空には白い雲が浮かんでおり、自然の美しさと都市の象徴的なランドマークが対比的に描かれています。季節感(春から初夏)と日本の観光地としてのアイデンティティが強く感じられる構成です。
近景(藤)、中景(庭園の一部)、遠景(スカイツリー)というレイヤー構造により、非常に奥行きのあるドラマチックな構図となっています。
E4Bも言葉多く健闘していたものの、写っているものを正しく説明している印象。
12Bの方が「季節感」や「観光地としてのアイデンティティ」、さらには「レイヤー構造」といった、写真の構図意図や商業的なコンテキストまで踏み込んだ、より深い分析を行っています。
検証2:皿に盛られた串焼き(客観レポートと五感の刺激)
続いて2枚目はこれ。
薄暗い居酒屋のテーブルの上、白い長皿に綺麗に並べられた美味しそうな串焼き(焼き鳥)の写真です。
軽量版「E4B」に投げた本気の写真描写がこちらです。
【E4B】
主役は、串に刺された数本の食べ応えのある食材(おそらく鶏肉や魚介など、何らかの肉質のものがタレでコーティングされている)。これらの具材は、高温で調理され、表面が深く飴色にキャラメル化しています。
そのツヤと焦げ目の濃さから、砂糖をベースにした甘辛いタレによってしっかりとコーティングされ、カリッと揚がる直前の状態であることがわかります。
全体のベースは無機質な純白の長方形プレートで、背景には温かみのある木目調のテーブルが写り込んでいます。
これだけでもそこそこ美味しそうな描写ではあるものの、事実を淡々と連ねた「客観的なレポート」って感じ。
対する「12B」の描写は、さらに踏み込んできます。
【12B】
色調と質感
黄金色のグラデーション: 肉の表面を覆うスパイスと脂が、加熱によって美しい琥珀色から深いキャラメル色へと変化している様子。光を反射する「テカリ」が、瑞々しさと濃厚な旨味を予感させます。
コントラストの妙: 白い陶器の皿との対比により、串焼きの野性味と、提供される際の清潔感が強調されています。また、背景の温かみのある木目(テーブル)が、空間全体に「落ち着いた居酒屋のような寛ぎ」を与えています。
質感のコントラスト: 炭火で炙られたことによる「焦げ目のドライな質感」と、肉の内部から溢れ出す「脂のしっとりとした艶」が同居しており、視覚だけで食感の違いを想像させます。
さらに、読者の五感を刺激するユニークなフレーズとして、以下のようなものまで提案。
【12B(続き)】
・「鼻腔を擽る焦燥感。一目見ただけで、スパイスの刺激と肉汁が弾ける瞬間を、脳内だけで既にシミュレートしてしまう。」
・「この琥珀色の輝きは、香ばしい香りへの招待状。一口ごとに崩れ落ちるタンパク質の幸福を、あえてゆっくりと享受する贅沢。」
「焦げ目のドライな質感」と「脂のしっとりとした艶」の対比といった表現の情緒や、そこから想起される感覚の表現力は12Bが圧勝。
ただ被写体を並べるだけでなく、ブログの読者の食欲や情緒を強く揺さぶるための表現やフレーズを自発的に言葉にしてくれました。
う〜ん。
「一口ごとに崩れ落ちるタンパク質の幸福」って、私よりもレベル高いな…
結論:これからは12Bを使っていこう
こうして対等な条件で戦わせてみることで、E4Bは決してポンコツではないものの、12Bの持つ表現力の豊かさが本物であることがよく分かりました。
E4Bは「事実を正しく描写する」というレベルにおいて非常に優秀、一方で12Bはそこから一歩踏み込んで「その描写が人間にどう伝わるか」まで踏み込んで表現を紡ぐことができます。
この表現力の差こそが、パラメータ数(B)の違いがもたらす決定的な「知能の差」なんですね。
多少メモリを食おうが時間がかかろうが、精度の高いデータベースとして機能させるなら、12Bを常用した方が遥かに合理的。
幸い、私のMac mini M4(メモリ24GB)であれば、12Bを動かしてもカクつくことなく、実用範囲内のスピードでサラサラと応答してくれます。
これからはこの「12B」を新たなデジタル小作人として召し抱え、第二の脳の構築を一気に進めていくことにします。
なんていうところで、続きはまた明日。
【おまけのワンポイント】
一般的に、ローカル環境でLLMを快適に(ストレスのない応答速度で)動かすための「パラメータ数(B)」と「必要なPCのメモリ容量」の目安は以下の通りと言われています。
・8GBメモリのPC:〜4B(E4Bなど)が限界
・16GBメモリのPC:〜8B(Llama 3 8Bなど)が快適ライン
・24GB〜32GBメモリのPC:〜12B(今回のGemma 4 12B)がちょうどいい上限
・64GB以上のモンスターマシン:70Bクラスの大規模モデルも視野に
自分のハードウェアのメモリ容量と相談しながら、カクカクにならない「スイートスポット」のモデルを選ぶのが、ローカルAIライフを快適にするコツです。



0 件のコメント:
コメントを投稿