Zennの「LLM」のフィード

フィード

記事のアイキャッチ画像
なぜ、LLM AIはASD的な回答をしがちなのか?
Zennの「LLM」のフィード
はじめに近年、生成系AI、特にLLM(Large Language Model)が急速に社会に浸透する中で、「AIの回答がASD(自閉スペクトラム症)的である」と感じる人は少なくありません。ユーザーがわずかな文脈のズレを指摘しても、AIは頑なに論理整合性を保とうとし、柔軟な修正や「空気を読む」ような対応を苦手とします。まるで、形式的なルール遵守に全精力を注ぐ、優秀だがコミュニケーションの苦手な部下のようです。本レポートでは、「なぜLLM AIはASD的な回答をしがちなのか」を認知科学、言語モデルの構造から分析します。ここでいう“ASD的”とは、臨床的な意味ではなく、文脈理解よりも...
7時間前
記事のアイキャッチ画像
システムプロンプト設計について
Zennの「LLM」のフィード
はじめにシステムプロンプトとは、AIの挙動や正確を決める設計書のこと。また、前提として、システムプロンプトは一度書いて終わりではなく、テストと改善を繰り返すもの。実際のクエリで試し、期待通りの動作をしない箇所を特定して段階的に改善していくことが重要となる。実際に業務で作成・改善を繰り返しており、必須となる指示や効果を感じた指示について以下に記載。※当たり前の内容と言われればそうなのですが、チェック項目として文章に残します。 1: 役割と目的の明確化システムの役割を冒頭で明示的に定義。特にRAGシステムを構築している場合、「提供された文書を参照して回答する」という制...
15時間前
記事のアイキャッチ画像
GitHubで管理されているZennのtopicsを集計するコードをclaude codeに作らせた
Zennの「LLM」のフィード
今回はタイトル通り、GitHubでZennの記事を管理している場合に、どのようなtopicsがよく利用されているか集計するための機能をclaude codeに作らせてみました。私自身連続170記事以上出している関係で、どのような技術をよく利用しているか調べたくなり、作らせてみました。 ZennをGitHubで管理するためのフォルダ構成違いはあるかもしれませんが、基本的には以下のフォルダ構成で管理されていると思います。articles/ hogehoge.md fugafuga.mdbooks/ ...images/ ...scrapes ...今回はa...
19時間前
記事のアイキャッチ画像
コンテキストエンジニアリングの基礎
Zennの「LLM」のフィード
コンテキストエンジニアリングの基礎 コンテキストエンジニアリングとはコンテキストエンジニアリング(Context Engineering)は、生成AI、特に大規模言語モデル(LLM)に対して、望む出力を得るために入力情報(コンテキスト)を最適に設計する技術です。AIがより正確かつ有用な回答を生成できるように、質問や前提情報、制約条件を整理して伝えることにより、出力の品質をコントロールします。 基本の考え方LLMはプロンプト(入力文)と、その周辺に付与された文脈や履歴といった情報をもとに推論を行います。どの情報を、どんな順番や形式で渡すかによって結果は大きく変わるため、コン...
21時間前
記事のアイキャッチ画像
なぜ、2025年以降「プロンプトエンジニアリング」という言葉は急速に廃れたのか?
Zennの「LLM」のフィード
はじめに2023年から2024年にかけて、「プロンプトエンジニアリング」という言葉は、生成AI時代の新しい職能として大きく注目を集めました。ChatGPTやClaude、Geminiなどの大規模言語モデル(LLM)が一般化する中で、「どんなプロンプトを与えれば、AIからより良い回答を引き出せるのか」が一種の技術のように語られ、SNSや書籍、セミナーでは“魔法の言葉づくり”が盛んに共有されました。しかし、2025年に入るとこの言葉の勢いは急速に衰退し、ネット上でもほとんど見かけなくなりました。本稿では、その理由を技術的・心理的・社会的観点から整理し、なぜ「プロンプトエンジニアリング...
1日前
記事のアイキャッチ画像
大規模計算時代におけるパラメータ推定自動化の歴史
はてなブックマークアイコン 1
Zennの「LLM」のフィード
はじめにこれはポエムに近い。ので、技術的にすぐ使える情報を求めている人には合わない。しかし、技術的な教養とか文化みたいなものを使って文章を楽しむ分には良い記事だと思う。テーマはタイトルの通りであるが、特にLLMのコンテキスト適応方法がハンドチューニングからオートマチック方面へ本格的に変わりつつある状況を思い浮かべてつけたタイトルだ。本記事のキーワードとしてはMIPROv2やGEPAなどの最近のプロンプト最適化手法から、コンテキスト適応自体をAgenticに実施するACEなどが挙げられる。これらの出現と、伝統的な機械学習、はたまた統計推論にまで遡り、計算機を利用したパラメータ調整技...
2日前
記事のアイキャッチ画像
OpenAI Agent Builderを使ってGuardrail実装してみた
Zennの「LLM」のフィード
今回は、現地時間10月6日にOpenAIが発表したAgent Builderという機能を早速使ってみました。Agent Builderを利用することで、GUIを利用してエージェントを作成することができるようになります。 Agent Builderとは?Agent BuilderはOpenAI DevDay 2025にて発表された新しいプロダクトとなっています。Agent Builderを利用すると、ドラッグアンドドロップでロジックを構成し、ツールを接続やカスタムガードレールを構成するためのキャンバスを利用できます。また、プレビューの実行、インラインのeval設定、完全なバージョニン...
2日前
記事のアイキャッチ画像
RAG精度改善を解説する本を出版しました
Zennの「LLM」のフィード
ここ最近、Amazonにて RAG(Retrieval-Augmented Generation)の精度改善をテーマにした書籍を出版しました。書籍はこちらからご覧いただけます:https://www.amazon.co.jp/dp/B0FRXG5JKZ 本を書くきっかけこれまでRAG精度改善に関する記事をいろいろ書いてきましたが、そのなかで「改善の手法って本当にたくさんあるな」と実感しました。論文や記事で中身を紹介しているものは多いけれど、実際に全部試して「どれが有効だったのか」まで踏み込んで整理されているものは少ないんですよね。そこで、自分が実際に試して効果を感じた方法を...
2日前
記事のアイキャッチ画像
なぜ今、コンテキストエンジニアリングなのか
Zennの「LLM」のフィード
はじめに最近、社内でこんな言葉を耳にすることが多くなったように思う。「これからはプロンプトエンジニアリングではなく、コンテキストエンジニアリングの時代だ」言葉だけ聞くと一見新しい概念のようにも思えるが、よくよく考えてみると、これは特別なことではないように感じる。本質的には、相手によってコミュニケーションの方法を変えるという、私たちが昔から当たり前にやってきたことと同じだ。 1. 相手に合わせて話すということ私たちは、出自も、文化も、年齢も異なる相手に対して、都度、言葉の選び方や説明の仕方を自然に変えている。相手の知識や経験、背景を踏まえ、どうすれば伝わるかを考え...
2日前
記事のアイキャッチ画像
LLMの常識が変わる?最新AIモデルから学ぶ、3つの衝撃的な事実
Zennの「LLM」のフィード
LLMの常識が変わる?最新AIモデルから学ぶ、3つの衝撃的な事実大規模言語モデル(LLM)の進化は凄まじく、毎月のように新しいモデルが登場しています。私たちはつい、ベンチマークのスコアといった性能指標に目を奪われがちです。しかし、その数字の裏側にある「設計思想」や「アーキテクチャ」にこそ、未来のAIトレンドを読み解く鍵が隠されています。本記事では、最近公開された3つの先進的なLLM(Tongyi DeepResearch, LongCat-Flash-Chat, NVIDIA Nemotron Nano)の調査レポートを読み解き、私自身が「これは常識が変わるぞ」と衝撃を受けた「3...
2日前
記事のアイキャッチ画像
テキスト変換方式によるマルチモーダルRAGを構築してみた
Zennの「LLM」のフィード
はじめにこんにちは、Timelabで Lynxというカレンダーサービスを開発している諸岡(@hakoten)です。この記事は、RAGの種類の一つである「マルチモーダルRAG」を具体的なサンプルを用いて試したものになります。マルチモーダルRAGには大きく「画像自体をベクトル化し、テキストと一緒のベクトル空間に格納する方法」と「画像を一度テキストに変換し、ベクトル空間に格納する方法」の2種類があります。画像自体をテキストと同じベクトル空間に格納する方式は以下の記事でも紹介していますので、興味があれば一読ください。https://zenn.dev/timelab/articles...
3日前
記事のアイキャッチ画像
実行時に成長を続けるAgentic Context Engineering
Zennの「LLM」のフィード
はじめに前回、下記のようにプロンプトエンジニアリングを終わらせてくれる期待を込めてDSPyの紹介をした。DSPyの機能の一つであるプロンプト最適化の大きな役割の1つはLLMに与えるガイドラインをデータセットから作り出してしまうというものである。前回の記事で、データセットからNARUTOの主人公ナルトの口調を真似て言葉を言い換えるエージェントが作成できた(僕はナルトに詳しいのでマニュアルでも書ききれるが…)。https://zenn.dev/cybernetics/articles/39fb763aca746cここでいくつかキーワードを抑えてほしい。DSPy内で利用されるプロン...
3日前
記事のアイキャッチ画像
AI エージェントにとって難しいタスクとは何か? SWE-bench から考える
Zennの「LLM」のフィード
近年、多数のモデルやAIエージェントが公開されていますが、「ベンチマークは良いけど実際使ってみると微妙」という声や、「このベンチマークで1%向上したというが実際どれくらいの差なのか?」という疑問が発生しがちです。今回は SWE-bench-verified というベンチマークを題材に、AI はどのようなタスクを解くことができて、また何が苦手かについて、いくつかのデータや具体例を確認しながら考えたいと思います。 SWE-bench-verified とはPython で書かれた 12 リポジトリで実際に提出された 500 件の issue について、正しく解くことができるかを単体テ...
4日前
記事のアイキャッチ画像
なぜLLMは答えられるのか?トークンとコンテキストとは何か?
Zennの「LLM」のフィード
はじめまして。エンジニア歴4ヶ月、WEELでFastAPIを用いたAIアプリケーション開発に取り組んでいる瀬戸口です。これまで私は、AIアプリを開発していながらAIやLLMをどこか「魔法のようなもの」として扱ってきました。しかし実際に学んでいくと、LLMの本質はあくまで**「ドキュメント補完」**であり、魔法でも万能の知能でもなく、明確な仕組みに基づいて動いていることを理解しました。この記事では、私自身が学んだ LLMの基本原理 を整理し、「なぜLLMは答えられるのか」「トークンやコンテキストとは何か」「LLMが抱える限界と、それを補う仕組み」といった点を解説していきま...
4日前
記事のアイキャッチ画像
Karpathy指摘: LLMが書くコードは防御的すぎる
Zennの「LLM」のフィード
元記事Andrej Karpathy on X: LLMs are mortally terrified of exceptionshttps://x.com/karpathy/status/1976077806443569355 Karpathyの投稿が話題にAndrej Karpathy(OpenAI創設メンバー、元Tesla AI部門ディレクター)が10月5日にXで投稿した、LLMの例外処理に関する観察がHacker Newsで201ポイントを獲得しています。「ラボがRLでこれらの可哀想なLLMに何をしているのか知らないが、彼らは例外に対して死ぬほど恐れている。どん...
4日前
記事のアイキャッチ画像
Anthropic研究: LLMはわずか250件の悪意あるデータで「汚染」可能
はてなブックマークアイコン 1
Zennの「LLM」のフィード
元記事A small number of samples can poison LLMs of any size - Anthropic Researchhttps://www.anthropic.com/research/small-samples-poison なぜ今話題になっているのかAnthropicのポイズニング研究が出た。Hacker Newsで563ポイント。従来の想定では、LLMへのデータポイズニング攻撃は「訓練データの一定割合」を汚染する必要があると考えられていた。データセットが大きくなれば、攻撃用の悪意ある文書も比例して増やす必要がある、と。この研究...
4日前
記事のアイキャッチ画像
【AWS Trainium 50本ノック #0】はじめに
Zennの「LLM」のフィード
こんにちは、カラクリの R&D チームの吉田です。 カラクリと AWS Trainiumカラクリでは、AWS Trainium を活用した LLM 開発を2023年から続けています。AWS Trainium は、深層学習に特化したハードウェアアクセラレータです。GPU と比較してコストあたりの計算が速く、これにより、大規模な LLM 学習を通常よりも省コストで実施することができます。カラクリでは、これまで以下のような開発を実施してきました[1]:KARAKURI LM日本語LLMシリーズです。2024年に3つのモデルをオープンウェイトで公開しました。日本語ベン...
4日前
記事のアイキャッチ画像
仕様書駆動開発における「境界線」の引き方 ~UIは自由に、ロジックは不変に~
Zennの「LLM」のフィード
はじめに結局AI駆動で開発する時に困るのって、コード量が増えると整合性が取れなくなっていくことだと思います。UIを変えようとして、新規チャットでLLMに指示を出すと、重複した関数を増やし始めたり、コンポーネントを独自実装したり、既存のコンポーネントを使ってくれなかったり、、、そんなあるあるを解決するには、変えていいコードと変えたく無いコードの線引きとその境界線の弾き方が肝になるのではないでしょうか。実際、開発してて思うのは、UIだけなら散らかったコードになってもなんとか修正できるが、ロジックとUIが依存したコードの量が増えると難しくなってくということです。逆に言うと、適切にコ...
4日前
記事のアイキャッチ画像
我々はCodexとどう向き合うべきなのか
はてなブックマークアイコン 243
Zennの「LLM」のフィード
この記事は、すでにCodexやClaudeCodeなどのAIコーディングツールを実務で使い始めているエンジニアに向けて書いている。「期待ほど効率が上がらない」と感じている人や、運用の型を模索している個人開発者を想定している。導入方法や基礎理論は扱わない。ひとりのエンジニアが数ヶ月間Codexと向き合って得た、実践的な運用知見を語る。 数ヶ月で変わったことまず、ここ数ヶ月でAIコーディングツールの使い方が大きく変わったという話からしたい。数ヶ月前のClaudeCodeガードレール戦略全盛期と比べると、隔世の感がある。あの頃は、AIが暴走しないように制御する、余計なことをさせないよう...
4日前
記事のアイキャッチ画像
なぜ、頭が悪い人ほどAIエージェントに期待するのか?
Zennの「LLM」のフィード
はじめにAIエージェントという言葉を耳にする機会が増えています。自ら考え、判断し、行動する――そんな“自律的AI”が、まるで未来の知的執事のように語られています。しかし興味深いのは、この新しい技術に最も強い関心を示す層が、必ずしも知的好奇心の高い層ではないという点です。むしろ「考えることを避けたい人たち」ほど熱中しているのです。一方で、論理的思考力の高い層ほど、AIエージェントに懐疑的で距離を置きがちです。この差は単なる技術リテラシーの問題ではなく、人間の思考の構造と社会の知的分布を映す鏡のようなものです。本稿では、なぜ頭の悪い人ほどAIエージェントに期待するのかを、心理的・社...
4日前