Zennの「大規模言語モデル」のフィード

フィード

記事のアイキャッチ画像
Symphony - OpenAIが発表したチケット駆動AI開発ツールについて
Zennの「大規模言語モデル」のフィード
概要こんにちは!ブロックチェーンエンジニアの山口夏生です。ブロックチェーン×AI Agentで自律経済圏を創る開発組織Komlock labでCTOをしています。コーディングエージェントを複数並列で自律的に回すマルチエージェント開発が、ここ数ヶ月でエンジニアの間に急速に広まっていますが、まだそれぞれ試行錯誤しているフェーズで、最適解はない認識です。OpenAIが最近発表したSymphonyに注目しています。https://github.com/openai/symphony自分もClaudeCodeとOpenClawのオーケストレーションを日常的に考えていて、複数エージ...
12時間前
記事のアイキャッチ画像
1人のAIに全部頼むのをやめたら、コードの質が変わった——Agent Teams 入門
Zennの「大規模言語モデル」のフィード
はじめに「1 人でなんでもできる万能な人材」と「設計・開発・レビューそれぞれのプロが揃ったチーム」——どちらが複雑なプロジェクトで強いか、考えるまでもないですよね。Claude Code も同じです。1 つのセッションに「設計もして、コードも書いて、レビューもして」と頼み続けると、会話が長くなるにつれて前の指示を忘れたり、判断がブレたりし始めます。 これは Claude の限界ではなく、AI が持つ「コンテキストウィンドウ(作業メモリ)」の構造的な問題です。会話が積み重なるほどメモリが埋まり、精度が落ちる——これは "context rot" と呼ばれる現象です。解決策...
14時間前
記事のアイキャッチ画像
2026/3月時点での各AIモデルの個性
Zennの「大規模言語モデル」のフィード
1000行程度の小規模~3万行くらいの中規模なツールやサービス、スマホアプリを2025/8月ごろからclaude codeとcodexで複数作ってきましたその所感ですAIエージェントやコーディングエージェント枠であまり語られないGeminiですが、こちらも使いどころはあります。何も考えずにUIを作ると淋しくなりがちなので、SVGアニメやアイコンを作ってもらいますそんな感じで現状は、UIが関わってるところはclaude codeでプラン&実装プランも実装もcodexでレビューはしてもらうclaude codeでうまく行かない実装はcodexで装飾はgemini担当...
14時間前
記事のアイキャッチ画像
AIが自ら「検索し直す」。DeepSeek-R1とDifyが作る高度なRAG構築の最前線
Zennの「大規模言語モデル」のフィード
はじめに社内でRAG(検索拡張生成)システムを構築したものの、「質問が少し複雑になると、的外れな回答が返ってくる」「検索結果に欲しい情報がないのに、AIが無理やり嘘の回答(ハルシネーション)を作ってしまう」といった壁にぶつかっていませんか?従来のRAGは「検索して、そのまま回答する」という一直線のプロセス(Naive RAG)であったため、検索精度がそのまま回答品質の限界になっていました。そこで現在、AI開発の最前線で注目を集めているのが、「自己改善型RAG(Self-Reflective RAG)」です。本記事では、世界中を驚かせた超強力な推論モデル「DeepSeek-R1...
15時間前
記事のアイキャッチ画像
ChatGPTで「講義システム」を作ってみた
Zennの「大規模言語モデル」のフィード
ChatGPTで「講義システム」を作ってみたAIとの長い対話を安定させるためのシンプル講義フレームこの記事では、AIとの対話を使って「講義形式の学習システム」を作ってみた経緯をご説明します。後から振り返ると、AIの挙動との付き合い方長い対話を安定させる方法状態管理の仕組みといった、少し技術的なテーマに繋がっていったようです。(それもChatGPTに整理してもらったのですが) ① なぜ作ったか最近、ニュースを見ていて思うことがあります。まぁまぁいい大人になったのに、わからないことばかりだな、と。例えば、世界情勢をもう少し理解したいと思いました。世界情勢...
15時間前
記事のアイキャッチ画像
【実測】Blackwell × llama.cpp — CUDA Toolkit選択で性能が5倍変わる罠
Zennの「大規模言語モデル」のフィード
はじめにRTX 5090(Blackwell / SM120)で llama.cpp を使っていて、思ったほど速くないと感じていませんか?筆者は前回の記事で Qwen3.5-35B-A3B のベンチマークを公開しましたが、実はその数値は本来の性能の5分の1しか出ていませんでした。原因は2つ:CUDA Toolkit 13.1 でビルドするとクラッシュまたは大幅劣化するFORCE_CUBLAS=ON が CMake キャッシュに残っていると、MMQ カーネルが無効化されて遅くなる本記事では、同一モデル・同一環境でビルド設定だけを変えた比較データを示し、Blackwel...
20時間前
記事のアイキャッチ画像
AIをずっと使ってきた私が、いま発信を始めた理由
Zennの「大規模言語モデル」のフィード
AIは、かなり初期から使っています。仕事に組み込んで、ハックして、試行錯誤して。周りがChatGPTに驚いていた頃には、すでに業務の一部を任せていました。ただ、それをあまり外に出してきませんでした。「ノウハウを発信する」より「使いこなすこと」に集中していたからです。でも最近、それだけじゃもったいないと思い始めました。試行錯誤の中で見えてきたことを、ちゃんと言語化して出していく。それがこの記事を書き始めた理由です。まず最初の記事は、「AIエージェントをどう業務に組み込んできたか」を書きます。 AIは最初から"使えない"とわかっていたAIを使い始めたとき、すぐに気づいたことがあ...
21時間前
記事のアイキャッチ画像
LLMの時間意識実験から生まれた /decompose — 大きなタスクを構造的に分解するClaude Codeスキル
Zennの「大規模言語モデル」のフィード
これは何?Claude Codeのカスタムスキル /decompose を作った。大きなタスクを入力すると、依存関係グラフ・クリティカルパス・マイルストーン付きの実行計画に分解する。/decompose Next.js + Stripeで有料記事の決済機能を実装する 7日と打つだけで、18個のサブタスクに分解し、4フェーズのマイルストーンと「最初の1手」を提示し、Claude Codeのタスクリストに自動登録してくれる。 なぜ作ったか前回のLLM時間意識実験で、LLMにプロジェクト計画を任せた場合の弱点がわかった。75回のAPI呼び出しで判明した問題:問題実験...
1日前
記事のアイキャッチ画像
「Claude Code に向いているプログラミング言語」記事を見て、LLM が書きやすい言語 Almide を土日で作ってみた
Zennの「大規模言語モデル」のフィード
はじめに先日、@mametter 氏による「Claude Codeで15言語ベンチマーク」という記事を読んで、思わず二度見してしまいました。Claude Code に複数のプログラミング言語でコードを書かせ、実行時間とコストを比較した記事です。結果はかなり興味深くて、Ruby が 73.1 秒 / $0.36、Python が 74.6 秒 / $0.38 と上位を占める一方、Rust は 113.7 秒 / $0.54、Haskell は 174 秒という結果になっていました。ここで比較されているのは、プログラムそのものの実行速度ではありません。LLM がコードを書き、修正し...
1日前
記事のアイキャッチ画像
RAGで足りなくなったので Agentic Search を調べてみた
Zennの「大規模言語モデル」のフィード
はじめに「なんでそこにあるデータを見てくれないかなぁ(泣)」…RAGを自作した人なら、一度はこう思ったことがあるのではないでしょうか。私自身、社内情報検索用のチャットボットをRAGで構築しましたが、回答精度がなかなか上がりませんでした。チャンクサイズを調整し、ハイブリッド検索を導入し、リランキングを入れ、プロンプトをこねくり回しても、ユーザーの曖昧な一言で検索が空振りする。そこにあるはずのデータに辿り着けない。加えて、言語モデルやツールがどんどん進化するので、チャットボットへの期待値も勝手に上がっていきます。質問者は「当然正確に答えてくれるだろう」と思っている。回答の生成自体は...
1日前
記事のアイキャッチ画像
OpenAI SDK で Amazon Bedrock を使う — Mantle の実動作モデルを調べた
Zennの「大規模言語モデル」のフィード
調査日: 2026-03-07 はじめに2026年2月26日、AWS は Amazon Bedrock の Mantle 推論エンジン における OpenAI 互換 Projects API の一般提供をアナウンスしました。Mantle は Amazon Bedrock の新しい分散推論ランタイムであり、Bedrock 上でホストされるモデルを OpenAI 互換の Chat Completions API・Responses API として提供するレイヤです。既存の Bedrock ネイティブ API(Converse API など)とは独立した Inference エン...
1日前
記事のアイキャッチ画像
Open WebUIをVPSでセルフホストする方法【ローカルLLMをChatGPT風UIで使う】
Zennの「大規模言語モデル」のフィード
元記事: https://devsideup.com/open-webui-selfhost/ChatGPTと同じ感覚でローカルLLMを使いたい。でもデータは外に出したくない。そんな人にぴったりなのが Open WebUI です。OllamaなどのローカルLLMをChatGPTライクなUIで操作できるOSSで、GitHubのスター数は70,000超え。2024〜2025年で最も急成長したAI系リポジトリの一つです。この記事では、Open WebUIをVPSにDockerでセルフホストする手順を解説します。 Open WebUIとは?一言でいうと「ローカルLLMをChatG...
1日前
記事のアイキャッチ画像
RAG のノイズ耐性を観察してみる
Zennの「大規模言語モデル」のフィード
はじめに自作の議事録AIチャットのRAGパイプラインで、検索結果にどのくらいのノイズ(無関係なチャンク)が混ざると回答の精度が悪くなるのか、が気になりました。ノイズ比率を0%〜100%の7段階に推移させて、合計420条件でLLM評価を回してみました。!あくまで個人の実験なので、参考程度にお願いします。 実験 タスク自作の議事録AIチャットの検索処理を使って実験します。実データは使用せず、手書きの合成トランスクリプト(160発話)を用意しました。これを1000文字・150文字オーバーラップで14チャンクに分割し、Jaccard類似度で検索して上位6件を取得します...
1日前
記事のアイキャッチ画像
AutoGen × GraphRAG で類似レポート検索を試してみた
Zennの「大規模言語モデル」のフィード
はじめに以下のリポジトリを参考に、AutoGenとGraphRAGを組み合わせた類似レポート検索を試しました。レポート検索エージェントを作成し、ツールでのレポート検索を可能にしました。結果として、キーワードが一致しない曖昧なクエリでも関係性をたどって類似文書を見つけられることが確認できました。同様の仕組みに興味がある方の参考になれば幸いです。https://github.com/karthik-codex/Autogen_GraphRAG_Ollama 用語解説AutoGenとはMicrosoftが開発したオープンソースのAIエージェント開発フレームワークです。...
1日前
記事のアイキャッチ画像
Portkey AIゲートウェイ実装Deep Dive:条件付きルーティングとコスト最適化戦略
Zennの「大規模言語モデル」のフィード
Portkey AIゲートウェイ実装Deep Dive:条件付きルーティングとコスト最適化戦略 この記事でわかることPortkey AIゲートウェイの条件付きルーティングを使い、ユーザー属性やタスク種別でLLMプロバイダーを動的に振り分ける実装方法重み付きロードバランシングとフォールバックチェーンを組み合わせた高可用性アーキテクチャの構築手順サーキットブレーカーとカナリアテストを活用した本番環境での段階的モデル切り替えコスト最適化の4パターン(タスクベースルーティング・キャッシュ・重み調整・予算制限)の具体的な設定例条件付きルーティング×ロードバランシング×フォールバ...
1日前
記事のアイキャッチ画像
200行のルールを書いても、Claude は同じミスを繰り返す
Zennの「大規模言語モデル」のフィード
今日、僕は AI に向かって叫んだ。「fucking useless(使えない)」コードのバグではない。デプロイの失敗でもない。指示を無視されたから怒った。僕は Claude Code のパワーユーザーだ。毎日12時間以上使っている。CLAUDE.md(Claude への指示ファイル)に200行以上のルールを書いている。1行1行、全部に日付がある。全部に「事件」がある。それでも、Claude は同じミスを繰り返す。そして調べてみたら——これは僕だけの問題じゃなかった。 事件:1週間前に見つけたツールを、AI が「要らない」と却下した1週間前、僕はブラウザ自動化ツール「P...
1日前
記事のアイキャッチ画像
AI雑談エージェントを作る
Zennの「大規模言語モデル」のフィード
ちまちまと作って自分で使っていたが、なんかAIVTuberも発展しているようだし、『超かぐや姫!』も公開されたし、一旦どういう感じか書いておこうと思う。https://github.com/kinoh/Tsuki プロンプトとハーネス「雑談」エージェントでは口調の制御が見かけの人格を大きく左右する。特定のキャラを明示して「〇〇っぽく振る舞う」といった書き方は手軽だが、人格は平坦な記号に束縛され、不変で成長の余地がなくなる。フォースターの言うフラットキャラクターだ。(これはAI的な模倣、つまり確率分布に基づく「推論」だけしていると新奇な表現は生まれなくなるだろうという表現文化全てへ...
1日前
記事のアイキャッチ画像
AI(LLM)エージェントの実行プロセスを、トヨタ生産方式に基づくフレームワークで制御する「ANDON」を公開
Zennの「大規模言語モデル」のフィード
3行まとめAIエージェントに自律的なタスク遂行(目標最適化)を任せると、「手段の目的化」や「エラーへの対症療法的な対応」といった構造的な課題に直面します。これを解決するため、トヨタ生産方式の「自働化(異常で止める)」「改善(失敗から学ぶ)」をエージェントの実行プロセスに組み込むフレームワーク「ANDON for LLM Agents」を開発しました。エラー発生時に強制的に手を止めさせ、「なぜなぜ分析」と「再発防止策のルール化」を行わせることで、AIの振る舞いをより予測可能で安定したものにします。ANDON for LLM Agents愛知の叡智、理知の統治。エージェン...
1日前
記事のアイキャッチ画像
蒸留から醸造へ—次世代LLMに必要な設計思想の転換
Zennの「大規模言語モデル」のフィード
違和感は信じてよい。ただし、丸呑みはしないこと。本稿は、Medium先行公開記事[Beyond Distillation: Brewing the Next Generation of LLMs]https://medium.com/@fdmiruto/beyond-distillation-brewing-the-next-generation-of-llms-71305da76e59の逆輸入日本語版である。 仮説:問いは「生成」するものではない私の作業仮説はこうだ。「問い」とは、ゼロから生み出すものではない。すでに私たちの経験の中の**違和感(ノイズ)**とし...
1日前
記事のアイキャッチ画像
OpenAI / Anthropic / Google / Microsoft の思想の違い
Zennの「大規模言語モデル」のフィード
最近のAIの議論は、ほとんどが次のようなものだ。GPTの魅力が薄まったClaudeが長文やコード生成に強いGeminiの性能が高いつまり モデル性能の比較である。しかし少し視点を引くと、もっと重要なことが見えてくる。AI企業はそれぞれまったく違うものを作ろうとしている。この違いは、ポケモンの進化に似ている。最初は似た能力だった存在が、進化すると全く違う方向の能力を持つ。AIも同じで、LLMという同じ技術から 異なる進化ルートが生まれている。この記事では、その進化を整理してみる。AIの初期形態最初期のLLMはだいたい同じ能力だった。チャット文章生成要約つま...
1日前