Fixstars Tech Blog /proc/cpuinfoのフィードのフィード

Fixstars Tech Blog /proc/cpuinfoのフィード

このブログは、高速化のエキスパートであるフィックスターズのエンジニアたちが、技術的な知見や検証結果を自由に発信しているテックブログです。「ソフトウェアの高速化・最適化」と「最新ハードウェア/AI技術の活用」に焦点を当てた、専門性の高い記事が中心です。

フィード

【開催報告】生成AIを支える最適インフラ戦略 ―AI推論コネクティビティデータセンターの必要性―

Fixstars Tech Blog /proc/cpuinfoのフィード

【開催報告】「生成AIを支える最適インフラ戦略 ―AI推論コネクティビティデータセンターの必要性―」生成AIの実用化が急速に進む中、企業にとって「どのようなインフラでAIを動かすか」は事業の競争力に直結する問いとなっています。このたび、フィックスターズとオプテージは、生成AI時代に求められるインフラ戦略をテーマにしたセッションに登壇しました。セッションは2部構成で、フィックスターズからはビジネス・技術の両面から「Vertical AI」の潮流と実践方法を、オプテージからは生成AI推論・学習に特化したデータセンター戦略とGPUクラウドサービスを解説しました。本セミナーへは高い関心...

20時間前

【開催報告】AI先進県長野への挑戦インフラとフィールドが動かす価値あるAI セミナー

Fixstars Tech Blog /proc/cpuinfoのフィード

2026年3月19日、フィックスターズとTOSYSの共催によるオンラインセミナー「AI先進県長野への挑戦インフラとフィールドが動かす価値あるAI」を開催しました。多くの皆様にご参加いただき、誠にありがとうございました。本セミナーでは、AIインフラの地方展開、ソフトウェア高速化技術、農業AIロボットの実証、そしてフィックスターズ長野事業所の取り組みという4つのテーマで、計4セッションをお届けしました。本ブログ記事では、各セッションの内容をご紹介します。「AI先進県長野への挑戦インフラとフィールドが動かす価値あるAI」セミナー開催日: 2026年3月19日（木）12...

3日前

NVIDIA RTX PRO 6000 Blackwell Max-Q 上で尾崎スキーム I を動かしてみる

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにこんにちは、Fixstars でアルバイトをしている堀毛晴輝です。近年の生成 AI、大規模言語モデル需要の高さから、そのようなモデル学習・推論に特化したアクセラレータが多数、開発・販売されています。例えば、最近の NVIDIA GPU は、従来の科学技術計算向けの高精度演算器よりも、AI 向けの低精度演算器の搭載を重視するようになり、この流れは今後も加速すると考えられています。Fixstars Techblog にて、これまでに検証を続けてきたワークステーション向け最新 Blackwell GPU: NVIDIA RTX PRO 6000 Blackwell Max-...

10日前

Qwen3.5-27B の推論に適したハードウェアは？

Fixstars Tech Blog /proc/cpuinfoのフィード

概要Qwen が2026年2月に発表した最新のオープンウェイトモデル Qwen3.5 シリーズは、主にエージェント型のコーディングタスクで今までの Qwen シリーズを超える性能となっており、少なくとも今後数か月はオープンウェイトモデルとして主流の選択肢の一つとなると考えられます。そこで今回は、 Qwen3.5 シリーズから中規模のモデル Qwen3.5-27B を使用して、次の 4 種類のデバイスで推論速度を調査しました。H200 （エンタープライズ向け GPU ）RTX PRO 6000 Blackwell Max-Q Workstation Edition（ワークステー...

1ヶ月前

EAGLE-3 を用いた gpt-oss-120b の推論高速化

Fixstars Tech Blog /proc/cpuinfoのフィード

概要LLM を高速に推論する手法の一つに投機的デコード (Speculative Decoding) があります。この記事では、OpenAI 社のオープンウェイト LLM gpt-oss-120b を題材として、投機的デコード手法のひとつである EAGLE-3 を使うことによる実行時間の変化を NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition で測定し、どのような場合に EAGLE-3 を使うのが適切かについて検討しました。手法まず、今回の記事で利用する手法について簡単に説明します。投機的デコードhttp...

1ヶ月前

NVIDIA Blackwell におけるマルチモーダル学習の高速化

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにFixstars でアルバイトをしている若林大起です。これまでの連載では、LoRA 学習のプロファイリングや MPS による GPU 活用を通じて、同アーキテクチャの性能を引き出す手法を模索してきました。しかし、画像とテキストを同時に扱う大規模マルチモーダルモデル (LMM) は、その計算コストの高さと複雑なデータ構造ゆえに、単一のテキストモデルよりも最適化の難易度が高い傾向にあります。そこで今回は、LMM の学習最適化におけるベストプラクティスを調査するため、NVIDIA Blackwell アーキテクチャおよび LLaVA-NeXT を題材に、LLM の高速化で一...

1ヶ月前

QLoRAによるLLM省メモリFine-tuningと高速デプロイ： TensorRT-LLM・Triton・H100検証 2

Fixstars Tech Blog /proc/cpuinfoのフィード

7. 【新ワークフロー】TensorRT-LLM を用いたデプロイ 7.1 TensorRT-LLM 概要(新情報)TensorRT-LLMは、NVIDIA GPU上で最新の大規模言語モデル（LLM）の推論性能を高速化・最適化するための、NVIDIAの包括的なオープンソースライブラリです。TensorRT-LLMのワークフローは以下の通りです。参考NeMo ------------- |HuggingFace ------ | load ...

1ヶ月前

QLoRAによるLLM省メモリFine-tuningと高速デプロイ： TensorRT-LLM・Triton・H100検証 1

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにこんにちは。フィックスターズでアルバイトとして研究を行っている小島です。大規模言語モデル（LLM）の巨大化は、法外な Fine-tuning のコストという新たな課題を生み出しました。大規模化した LLM の恩恵を享受したい開発者にとって、その手段は自明ではありません。同時に、学習済みモデルをいかにして高速かつ安定的にデプロイするかは、実用化に向けた共通の課題となっています。本記事では、それら二つの大きな壁を打ち破るための技術スタックを紹介します。まず、Fine-tuning 時のメモリ問題を解析します。次に、 QLoRA による効率的な Fine-tuning で計算...

1ヶ月前

【開催報告】実践的パフォーマンスエンジニアリングによるAI高速化×Data-centric AI入門セミナー

Fixstars Tech Blog /proc/cpuinfoのフィード

2026年1月23日（金）に開催された、「【出版記念/オフライン開催】実践的パフォーマンスエンジニアリングによるAI高速化×Data-centric AI入門セミナー」のレポートをお届けします。本セミナーは、技術評論社の「ML Systemsシリーズ」の新刊『実践的パフォーマンスエンジニアリングによるAI高速化』と、同シリーズの先輩書籍にあたる『Data-centric AI入門』の著者陣をお招きし、AI開発における「高品質なデータ」と「処理高速化」の両輪について深掘りするイベントとなりました。当日の熱気あふれるセッションの模様をダイジェストでご紹介します。セッション1：...

2ヶ月前

AIStationで LLM 強化学習はどこまで可能か：verl を用いた 3B/7B モデルの検証

Fixstars Tech Blog /proc/cpuinfoのフィード

概要Fixstars AIStation（以降 AIStation）を利用し、verl による強化学習を試行しました。検証の結果、特定の条件下において、 Qwen2.5-7B-Instruct は OOM（Out of Memory）により学習不可能でしたが、より小さいモデルである Qwen2.5-3B-Instruct は学習可能であることが判明しました。このことから、条件に依存するものの、小規模なパラメータを持つモデルであれば、AIStation でも verl による強化学習が実施可能であることが示されました。はじめにこんにちは、ソリューション第四事業部ディレ...

2ヶ月前

NVIDIA Blackwell における Multi-Process Service (MPS) を用いた GPU 利用効率の改善

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにFixstars でアルバイトをしている若林大起です。前回の記事では、最新の NVIDIA Blackwell アーキテクチャ上での LoRA ファインチューニングにおいて、PyTorch Profiler を駆使してカーネル発行のボトルネックを特定し、単一 AI タスクの学習速度を高速化する手法を紹介しました。しかし、GPU リソースの活用という観点では、「1つのタスクを速くする」ことだけが正解ではありません。特に推論サーバや多数の実験を回す MLOps 基盤においては、「いかに多くのタスクを同時にさばくか（スループット）」がコスト対効果を決定づけます。今回は、このよう...

3ヶ月前

NVIDIA RTX PRO 6000 Blackwell Max-Q 上での LLM fine-tuning の実行速度・メモリ効率調査

Fixstars Tech Blog /proc/cpuinfoのフィード

投稿者より本記事はインターンシップで勤務された前田優希さんによる寄稿となります。最新 GPU の NVIDIA RTX PRO 6000 Blackwell Max-Q を用いて、LLM の fine-tuning にかかる実行速度とメモリ量を調査していただきました。記事の要約本記事では、以下のことを示しています。 1. fine-tuning 手法とその速度・メモリ消費の実験的測定について効率的な fine-tuning 手法である LoRA、QLoRA を用いて LLM を fine-tuning する方法を調査した。また、fine-tuning を高速・省...

3ヶ月前

LiDARを用いた3D Gaussian Splatting向けのデータセット作成について

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにこんにちは。アルバイトの木村です。この記事では、インターンシップで開発した、3D Gaussian Splatting向けのデータセット作成システムについて紹介します。このシステムの最大の特徴は、一般的なカメラ画像に加えて、LiDARから得られる正確な点群も活用する点です。開発にはROS2やSLAMといった技術を活用しました。本記事では、このシステムがどういった実装になったのかや、実際に会議室を測定した結果、どのようなデータが取得でき、どのような課題が見えたのかを詳しく解説します。背景 3D Gaussian Splatting(3DGS)とStructur...

4ヶ月前

NVIDIA Blackwell 上での LoRA チューニングに向けたプロファイリングと最適化

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにFixstars でアルバイトをしています若林大起です。近年 AI モデルを個人の好みや特定の用途に合わせて改変する「パーソナライゼーション」の需要が高まってきています。このため、クラウドの潤沢な計算資源だけでなく、ハードウェア資源が限られているローカル環境で部分的に学習を行う機会が増えてきました。しかし、ローカル環境で追加学習のコードをそのまま動かすだけでは、マシンの性能を十分に引き出せず非効率な学習を行っている場合が少なくありません。この問題を解決し、限られた GPU リソースを最大限に活用するためには、プロファイリングによって性能のボトルネックを特定し、的確なチュー...

4ヶ月前

3D Gaussian Splatting を約 40 % 高速化した話

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにアルバイトの星井です．本記事は，3D Gaussian Splatting の高速化の成果報告です．以前にも本サイト（3D Gaussian Splatting の紹介と高速化）にて 3D Gaussian Splatting の高速化についての報告を紹介しましたが，この時は全体の処理時間に対して約 4 % 程度の高速化でしたが，今回は約 40 % の高速化を達成しました．今回は以前の成果に加えて，CUDA カーネルの高速化に取り組みました．並列計算におけるデータの安全性を保つために不可欠な atomicAdd 命令．しかし，その安全性の代償として生じる重さが...

4ヶ月前

NVIDIA RTX PRO 6000 Blackwell Max-Q 上でBLASベンチマークを動かしてみる

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにこんにちは。Hosojimaです。強力なワークステーション向けGPUであるNVIDIA RTX PRO 6000 Blackwell Max-Q（以下 6000 Blackwell Max-Q）が発売されました。前回の記事では、NVIDIAのデータシートをもとに、ハイエンドGPUであるNVIDIA H100 PCIe（以下 H100 PCIe）との性能比較を行いました。今回は実機上でのベンチマーク検証です。行列積をはじめとした行列演算は、AI・ディープラーニング、物理シミュレーションや 3D CGレンダリングなど様々な場面で絶えず実行されており、その性能は特にこのよ...

7ヶ月前

Intel AMX (Advanced Matrix Extension) 解説（基礎編）

Fixstars Tech Blog /proc/cpuinfoのフィード

TL;DRAMX とはAdvanced Matrix ExtensionIntel が 4th Gen Xeon (Sapphire Rapids) に導入した新命令セット行列積を高速に計算できる専用命令理論性能は、1 コアあたり 3,482 [GFLOPS] （AVX512 の 16 倍）※ AVX512 理論性能：1 コアあたり 217 [GFLOPS]サンプルコードclang ver.gcc ver.OpenBLAS での実性能確認1 コアの場合、AVX512 の 11.7 倍112 コアの場合、A...

7ヶ月前

NVIDIA RTX PRO 6000 Blackwell Max-Q はどのようなGPUなのか？

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにこんにちは。エンジニアの廣岡です。「NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition」（以降、6000 Blackwell Max-Q）が発売され、入手できました。今回から数回に分けて、6000 Blackwell Max-Qの性能について解説していきます。初回は、NVIDIAのデータシートをもとに、その特徴と性能を、ハイエンドGPUであるNVIDIA H100 PCIe（以下、H100 PCIe）と比較しながらご紹介します。なお、記事の末尾には、今回主に比較するH100 PCIeに加え、参考としてN...

8ヶ月前

社内LLMサービス展開から1か月をデータで振り返る

Fixstars Tech Blog /proc/cpuinfoのフィード

フィックスターズの生成AIチームは、セキュリティ要件の高い案件でも自由に活用できる社内ネットワークに閉じた LLM API サービスを構築し、3月末に全社展開しました。利用開始から1か月経過したところで、今回の取り組みの内容と、利用ログの分析結果をご紹介します。また、外部の API サービスを利用することに比べたメリット・デメリットについてもまとめました。 GPUサーバーのスペックデプロイするためのサーバーとしては主にNVIDIA GPU H100 が4台搭載されたマシンを利用しています。チーム内で様々なモデルの性能を検証した結果、次の2種類の LLM を常時提供しています。...

1年前

3D Gaussian Splatting を用いた異常検知手法：Splat Pose & Detect の高速化

Fixstars Tech Blog /proc/cpuinfoのフィード

はじめにアルバイトの星井です。インターンシップの課題として、「3D Gaussian Splatting を用いた物体検出手法の調査と高速化」に取り組みました。物体検出手法を調査したのち、3D Gaussian Splatting を用いた異常検知手法である Splat Pose & Detect: Pose-Agnostic 3D Anomaly Detection についての高速化を行い、約 6 倍の高速化に成功しました。背景3D Gaussian Splatting for Real-Time Radiance Field Rendering とは、202...

1年前