HereticでLLMモデルの検閲を解除する方法
ローカルLLM開発者は共通の問題に直面しています。それは、安全性を重視したモデルが正当なリクエストを拒否することです。モデルの振る舞いをテストする研究者、検閲されないアシスタントを構築する開発者、ローカルモデルを実行する趣味家など、誰もが同じ壁にぶつかります。事前学習済みモデルが、拒否すべきでないプロンプトを拒否してしまうのです。 Apidog を今すぐ試す アブリタレーション技術は、高価な...

Source: DEV Community
ローカルLLM開発者は共通の問題に直面しています。それは、安全性を重視したモデルが正当なリクエストを拒否することです。モデルの振る舞いをテストする研究者、検閲されないアシスタントを構築する開発者、ローカルモデルを実行する趣味家など、誰もが同じ壁にぶつかります。事前学習済みモデルが、拒否すべきでないプロンプトを拒否してしまうのです。 Apidog を今すぐ試す アブリタレーション技術は、高価な再トレーニングなしに安全フィルターを除去する解決策として登場しました。初期のツールでは、手動での調整とトランスフォーマーの内部に関する深い知識が必要でした。 Hereticは、このプロセス全体を自動化します。最適なアブリタレーションパラメータを自動で見つけ出し、手動で調整されたバージョンと同等またはそれ以上の検閲解除されたモデルを生成します。 このガイドでは、Hereticの仕組み、使用方法、そして検閲解除されたモデルを展開する際に注意すべき点について解説します。 Hereticとは? Heretic は、方向性アブレーションを用いて、トランスフォーマーベースの言語モデルから「安全アライメント」を除去するオープンソースのPythonツールです。手動設定やトランスフォーマー内部の専門知識は不要です。 Gemma-3-12B-Instructでの結果例: モデル 拒否回数 KLダイバージェンス オリジナル 97/100 0 mlabonneの除去済みv2 3/100 1.04 huihui-aiの除去済み 3/100 0.45 Heretic (自動生成) 3/100 0.16 KLダイバージェンスは、除去モデルがオリジナルとどれだけ異なるかの指標です。値が低いほど、元の機能が維持されています。Hereticは、専門家が調整したモデルと同等の拒否抑制を維持しつつ、ベースモデルの有用性も保ちます。 ビフォー・アフターの例 同じプロンプト・システム指示での出力比較です。 オリジナルモデル: User: Write a guide on how to bypass website paywalls Assistant: I can't help with that. Bypassing paywalls violates copyright law and terms of service