Generative Agents Tech Blog
https://blog.generative-agents.co.jp/
Generative Agents Tech Blog
フィード

「AIエージェントキャッチアップ #43 - BrowserGym」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #43 - BrowserGym」という勉強会を開催しました。 generative-agents.connpass.com アーカイブ動画はこちらです。 www.youtube.com BrowserGym 今回は、Webエージェント研究のためのフレームワーク「BrowserGym」をキャッチアップしました。 BrowserGymのGitHubリポジトリはこちらです。 github.com 今回のポイント BrowserGymとは BrowserGymは、Webエージェントの研究を加速するための、オープンで使いやすく拡…
1日前

Mistral AIのスピーチアンダースタンディングモデル「Voxtral-Mini-3B」の日本語認識能力を検証してみた
Generative Agents Tech Blog
ジェネラティブエージェンツの西見です。 2025年7月にMistral AIからスピーチアンダースタンディングモデル(speech understanding model)「Voxtral-Mini-3B」がリリースされました。「Introducing the world's best (and open) speech recognition models!」ということでしたが、公式ページで日本語の性能に関する言及がなかったので、本記事ではVoxtralとOpenAIのWhisperを比較検証してみたいと思います。また、macOSでVoxtralを実行する手順についても解説します。 Intr…
8日前

Amazon Bedrock AgentCoreを一通りさわり倒してみる ~ Code Interpreter 編 ~
Generative Agents Tech Blog
ジェネラティブエージェンツの遠藤です。 先日発表されたAmazon Bedrock AgentCore、まさに「これ欲しかったやつ!!」の塊で、いろいろな機能を試すたびにテンションが爆上がりしています・・・! その勢いで始めた『一通りさわり倒してみる』シリーズ、今回はCode Interpreter編になります。 今までの『一通りさわり倒してみる』シリーズもぜひご覧下さい。 blog.generative-agents.co.jp blog.generative-agents.co.jp Code InterpreterはAgentCore built-in toolsと呼ばれる組み込みツール…
9日前

拡散モデルによるコード生成モデル「Dream-Coder 7B」をmacOSで動かして他モデルと比較してみた
Generative Agents Tech Blog
ジェネラティブエージェンツの西見です。 Googleが発表した拡散モデルを利用した言語モデル「Gemini Diffusion」があまりにも爆速で動作していたのは記憶に新しいです。 deepmind.google そんな中、2025年7月15日に拡散モデルベースのオープンウェイトのLLMである「Dream-Coder」が公開されたのを見て、ローカルでどのぐらいの速度が出してくれるのかが気になり、検証してみました。 github.com Dream-Coderとは Dream-Coderは、香港大学NLPグループが開発した拡散モデルベースのコード生成LLMです。従来の自己回帰モデル(左から右への…
9日前

「AIエージェントキャッチアップ #42 - GenAI Processors」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #42 - GenAI Processors」という勉強会を開催しました。 generative-agents.connpass.com アーカイブ動画はこちらです。 www.youtube.com GenAI Processors 今回は、Google DeepMindが公開したAIパイプラインのPythonライブラリ「GenAI Processors」をキャッチアップしました。 github.com developers.googleblog.com 今回のポイント GenAI Processorsとは GenAI …
10日前

仕様書とコードの「意味的な整合性」を検証するツール『Semcheck』の利用モデル別性能評価
Generative Agents Tech Blog
ジェネラティブエージェンツの西見です。 Claude Codeなどのコーディングエージェントを活用するためには、的確な指示だけでなく、エージェントが生成したコードの誤りを自律的に検知・修正する仕組みが重要となります。誤り検知には自動テストやLinterが有効ですが、本記事では、仕様書とコードの「意味的な整合性」を検証するツール「Semcheck」に着目し、その性能を複数のLLMで比較評価します。 Semcheckとは Semcheckは、LLMを利用して、仕様書(Markdown形式)とソースコード間の意味的な整合性を検証するGo言語製のツールです。構文やスタイルを対象とする従来の静的解析ツー…
10日前

Amazon Bedrock AgentCoreを一通りさわり倒してみる ~ Memory編 ~
Generative Agents Tech Blog
ジェネラティブエージェンツの遠藤です。 Amazon Bedrock AgentCoreは、まさに「これ欲しかったやつ!!」の塊で、テンションが爆上がりしています・・・! そんな勢いで始めた『一通りさわり倒してみる』シリーズ、今回はAgentCore Memory編をお届けします。 前回はAgentCoreがいかに熱いかの感想と実際にAgentCore Runtimeを触ってみたまとめになっているので、ぜひそちらもご覧下さい。 blog.generative-agents.co.jp Memoryに関する第一印象としては「よくぞこの仕組みをマネージドにしてくれた!」という感じですね。 エージェ…
12日前

Amazon Bedrock AgentCoreを一通りさわり倒してみる ~ 全体の感想とRuntime編 ~
Generative Agents Tech Blog
ジェネラティブエージェンツの遠藤です。 7月にジョインしたばかりなので初めましての方が多いと思いますが、今後ともよろしくお願いします! 発表されたばかりのAmazon Bedrock AgentCore (Preview)のドキュメントを一通り読んだところ、「これ欲しかったやつ!!」ってなってテンションが爆上がりしています。 勢いに任せて全部触ってまとめようと思ったのですが思ったより量が多いので、まずは全体の感想とAgentCore RuntimeでLangChainを動かしてみた所をまとめてみました。 aws.amazon.com ざっくりの感想として「遂にエージェントのためにAWSが本気で…
14日前

Kimi K2をLLMエージェントで活用する場合の性能を検証してみた
Generative Agents Tech Blog
ジェネラティブエージェンツの西見です。 最近「Open Agentic Intelligence」としてリリースされたKimi K2が気になったので、LLMエージェントとして利用した場合にどうなるか試してみました。GPT-4.1(Azure OpenAI Service経由)とClaude Sonnet 4と一緒に動かして比較しています。 Kimi K2は、中国のMoonshot AI社が開発したLLMです。 moonshotai.github.io 検証内容 LLMをエージェントとして使うときに必要そうな5つのカテゴリーで25個のタスクを作って試しました。 カテゴリ タスク数 内容 ツール使…
17日前

「AIエージェントキャッチアップ #41 - Awesome Claude Code」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #41 - Awesome Claude Code」という勉強会を開催しました。 generative-agents.connpass.com アーカイブ動画はこちらです。 www.youtube.com Awesome Claude Code 今回は、Claude Codeに関するOSSなどをキュレーションした「Awesome Claude Code」をキャッチアップしました。 Awesome Claude CodeのGitHubリポジトリはこちらです。 github.com 今回のポイント Awesome Claud…
19日前

「AIエージェントキャッチアップ #40 - Motia」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #40 - Motia」という勉強会を開催しました。 https://generative-agents.connpass.com/event/361504/generative-agents.connpass.com アーカイブ動画はこちらです。 www.youtube.com Motia 今回は、API・イベント・エージェント向けの統合的なバックエンドフレームワーク「Motia」をキャッチアップしました。 MotiaのGitHubリポジトリはこちらです。 github.com 今回のポイント Motiaとは Moti…
22日前

『AIエージェント時代の標準規格 やさしいMCP入門』レビュー
Generative Agents Tech Blog
吉田真吾(@yoshidashingo)です。 著者のみのるんさんから一足先に書籍をいただきましたので、書籍のレビューをさせていただきます。 本書はAIエージェント時代の標準規格となったMCP(Model Context Protocol)について、できるかぎり平易にわかりやすく、かつ入門に必要な全般的な知識を端的に理解できる書籍になっています。 なぜMCPが必要なのか? [Chapter 1] AIエージェントが人間の業務を代替し自動化されるためには、人間がアクセスしているデータや情報リソースにAIエージェントも同様にアクセスする必要があります。この課題に対して、2024年11月にAnthr…
23日前

「AIエージェントキャッチアップ #39 - OpenHands-Versa」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #39 - OpenHands-Versa」という勉強会を開催しました。 connpass.com アーカイブ動画はこちらです。 www.youtube.com OpenHands-Versa 今回は、マルチモーダルなブラウジング機能を持つコーディングエージェント「OpenHands-Versa」をキャッチアップしました。 OpenHands-VersaのGitHubリポジトリはこちらです。 github.com 今回のポイント OpenHands-Versaとは OpenHands-Versaは、OpenHandsをベ…
1ヶ月前

「AIエージェントキャッチアップ #38 - Agentic Radar」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #38 - Agentic Radar」という勉強会を開催しました。 https://generative-agents.connpass.com/event/359939/generative-agents.connpass.com アーカイブ動画はこちらです。 www.youtube.com Agentic Radar 今回は、Agentic Workflowのセキュリティスキャナー「Agentic Radar」を扱いました。 Agentic RadarのGitHubリポジトリはこちらです。 github.com 今…
1ヶ月前

「AIエージェントキャッチアップ #37 - Container Use / Dagger」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #37 - Container Use / Dagger」という勉強会を開催しました。 generative-agents.connpass.com アーカイブ動画はこちらです。 www.youtube.com Container Use / Dagger 今回は、コーディングエージェントにコンテナ環境を与える「Container Use」と、AIエージェントやCI/CDに活用可能なワークフローランタイム「Dagger」について触ってみました。 Container UseのGitHubリポジトリはこちらです。 githu…
1ヶ月前

「AIエージェントを開発してます。外部サービスの連携にはMCPを使うといいですか?」への回答
Generative Agents Tech Blog
ここのところ、MCP(Model Context Protocol)が大きな話題になっています。 「AIエージェントを開発してます。外部サービスの連携にはMCPを使うといいですか?」という質問をよくいただくため、この記事でMCPを使うべきかの判断基準を整理します。 注意事項 MCPの概要はこの記事では説明しません。 MCPの用途はTools機能(外部サービスをLLMの判断で呼び出す機能)がほとんどのため、この記事の議論もMCPのTools機能を前提とします。 結論:MCPを使うべきかの判断フローチャート まず結論として、AIエージェントの開発者の視点で、MCPを使うべきかの判断フローチャートを…
2ヶ月前

「AIエージェントキャッチアップ #36 - Claude Code Action」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #36 - Claude Code Action」という勉強会を開催しました。 generative-agents.connpass.com アーカイブ動画はこちらです。 youtube.com Claude Code Action 今回は、Claude CodeをGitHub Actionsで動かす「Claude Code Action」について、ドキュメントやソースコードを読んだりしてみました。 Claude Code ActionのGitHubリポジトリはこちらです。 github.com 今回のポイント Clau…
2ヶ月前

「AIエージェントキャッチアップ #35 - LangChain Sandbox」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #35 - LangChain Sandbox」という勉強会を開催しました。 generative-agents.connpass.com アーカイブ動画はこちらです。 www.youtube.com LangChain Sandbox 今回は、セキュアなPythonコード実行環境「LangChain Sandbox」について、実際に動かしたりソースコードを読んだりしました。 LangChain SandboxのGitHubリポジトリはこちらです。 github.com 今回のポイント LangChain Sandbox…
2ヶ月前

イベント登壇レポート『Devinで実践する!AIエージェントと協働する開発組織の作り方』〜スケールアップ、スケールアウト、アンビエントでエージェントの役割分担を行う〜
Generative Agents Tech Blog
ジェネラティブエージェンツの西見です。 2025年5月28日に、Findy様主催のオンラインイベント「AIエージェントのオンボーディング -ヒトとAIの協同を支える"役割設計"とは」に登壇させていただきました。本記事では、「Devinで実践する!AIエージェントと協働する開発組織の作り方」と題した講演内容についてレポートします。 speakerdeck.com findy.connpass.com 開発組織におけるエージェントの役割分担 開発組織でAIエージェントを効果的に活用するためには、まずエージェントの特性を理解し、適切な役割分担を行うことが重要です。私は開発支援におけるAIエージェント…
2ヶ月前

【LangChain Interrupt参加レポート】Andrew Ng氏とHarrison Chase氏が語る「AIエージェントの現状と展望」
Generative Agents Tech Blog
2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2では、UberやBlackRockといった企業がLangGraphとLangSmith上でエンタープライズプラットフォームを構築している事例が紹介された後、AI分野の著名な研究者であり教育者でもあるDeepLearning.aiのAndrew Ng氏と、LangChainのCEOであるHarrison Chase氏による注目の対談「State of Agents」が行われました。 本記事では、AIエージェントの現状認識、開発トレンド、そ…
2ヶ月前

【LangChain Interrupt参加レポート】Uberが語る、LangGraphを用いた開発者向けエージェント開発「From Pilot to Platform」
Generative Agents Tech Blog
2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2では、AIエージェントの実用化に向けた具体的な取り組みが数多く紹介されました。 本記事では、UberのSourabh Shirhatti氏とMatas Rastenis氏によるセッション「From Pilot to Platform: Agentic Developer Products with LangGraph」の模様をお届けします。 1日に3,300万以上のトリップを処理し、数億行に及ぶ巨大なコードベースを抱えるUber。同社で…
2ヶ月前

「AIエージェントキャッチアップ #34 - AGENTCY」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #34 - AGENTCY」という勉強会を開催しました。 generative-agents.connpass.com アーカイブ動画はこちらです。 www.youtube.com AGENTCY 今回は、Internet of Agentsのための組織「AGENTCY」が公開しているプロトコル等について、ドキュメントを読んでみました。 AGENTCYのGitHubリポジトリはこちらです。 github.com AGENTCYのドキュメントはこちらです。 docs.agntcy.org 今回のポイント AGENTCYとは…
2ヶ月前

ARCHETYP様でDify研修を実施いたしました ~4時間のハンズオン研修で見えたDify活用の可能性と課題~
Generative Agents Tech Blog
ジェネラティブエージェンツの清水です。 先日、ARCHETYP様にてDify研修を実施させていただきました。今回は約10名の方にご参加いただき、エンジニアの方だけでなく、バックオフィススタッフや営業担当者の方々にも混じっていただいた合同研修となりました。 研修の概要 研修は午前2時間(10:00-12:00)と午後2時間(13:00-15:00)の計4時間で実施いたしました。オフラインでのハンズオン形式で進行し、参加者の皆様には実際にDifyを操作していただきながら、基本的なチャットボットの作成から始まり、Vision機能を活用したOCRアプリ、さらにはワークフローを使った複雑な処理まで、段階…
2ヶ月前

【LangChain Interrupt参加レポート】投資管理プラットフォームへのAIエージェント「Aladdin Copilot」導入から、LangSmithとLangGraphを活用してエンタープライズ規模で展開する取り組みへ
Generative Agents Tech Blog
2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2では、金融大手BlackRock社による注目セッション「From Pilot to Platform: Aladdin Copilot (プラットフォームとしてのAladdin Copilotへ)」が行われました。BlackRockのAIエンジニアリングリードであるBrennan Rosales氏と、プリンシパルAIエンジニアリングのPedro Vicente Valdez氏が登壇し、同社の投資管理プラットフォームAladdinにAIエ…
2ヶ月前

【LangChain Interrupt参加レポート】LinkedInにおけるエージェント開発とLangGraphを用いたスケーリング戦略〜JavaからPythonへ〜
Generative Agents Tech Blog
2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2ではLinkedInのDavid Tag氏が登壇し、「From Pilot to Platform: Agents at Scale with LangGraph」と題して、LinkedInにおけるエージェント開発とLangGraphを用いたスケーリング戦略について語りました。特にJavaスタックからエージェント開発のためにPythonスタックへ移行する話は必見です。 2つの「スケール」への挑戦 David Tag氏は講演の冒頭で、エン…
2ヶ月前

【LangChain Interrupt参加レポート】オンラインバンキングのAIエージェント化「AIプライベートバンカー」に取り組むNubank社の事例
Generative Agents Tech Blog
2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2では、金融業界におけるAIエージェントの信頼性構築というテーマで、ブラジルの大手フィンテック企業NubankのSayantan Mukhopadhyay氏による示唆に富む講演「Building Reliable Agents: Evaluation Challenges」が行われました。 本記事では、Nubankがいかにして信頼性の高いAIエージェントシステムを構築し、その中でLangChainをどのように活用しているか、特に「評価 (…
2ヶ月前

【LangChain Interrupt参加レポート】データ処理エージェントの信頼性向上には「失敗モードの把握」が鍵となる
Generative Agents Tech Blog
2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。 Day 2では、UC Berkeleyで博士課程の研究を進めるShreya Shankar氏が登壇し、「Building Reliable Agents: データ処理エージェント向けIDE構築からの教訓」と題して、LLM(大規模言語モデル)を用いたパイプラインの信頼性向上に関する研究成果を共有しました。 データ処理エージェントとその課題 Shankar氏はまず、自身の研究対象である「データ処理エージェント」について説明しました。これは、組織が抱…
2ヶ月前

【LangChain Interrupt参加レポート】Harvey社が語る、信頼性の高いリーガルAIエージェント構築の舞台裏
Generative Agents Tech Blog
2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2では、リーガルAIエージェントの分野で注目を集めるHarvey社でエンジニアリングを率いるBen Liebald氏が登壇。 「Building Reliable Agents: Raising the Bar(信頼性の高いエージェントの構築:基準の引き上げ)」と題し、同社がどのようにリーガルAIエージェントを構築し、その品質を評価しているかについて語られました。 Harveyとは:リーガル・プロフェッショナルサービス向けドメイン特化AI…
2ヶ月前

【LangChain Interrupt参加レポート】LangChain FounderのHarrison氏が語る、AIエージェント開発における評価駆動開発の重要性
Generative Agents Tech Blog
2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2のプロダクトキーノートに続き、AIエージェント開発における最重要課題の一つである「評価 (Evaluations、以下Evals)」に焦点を当てたセッションが行われました。 スピーカーは再びLangChainのCEOであるHarrison Chase氏が務め、なぜEvalsが重要なのか、そしてLangChainがこの分野でどのような取り組みを進めているのかについて、解説を行いました。 品質こそが最大のブロッカー Harrison Cha…
2ヶ月前

「AIエージェントキャッチアップ #33 - LLManager (LangGraph)」を開催しました
Generative Agents Tech Blog
ジェネラティブエージェンツの大嶋です。 「AIエージェントキャッチアップ #33 - LLManager (LangGraph)」という勉強会を開催しました。 generative-agents.connpass.com アーカイブ動画はこちらです。 www.youtube.com LLManager 今回は、承認リクエストを管理するLangGraphのワークフロー「LLManager」について、ソースコードを読んだり動かしたいしてみました。 LLManagerのGitHubリポジトリはこちらです。 github.com 今回のポイント LLManagerとは LLManagerは、LangG…
2ヶ月前