
LLMLinguaが切り拓くAIアプリケーション開発の新境地: プロンプト長大化問題への処方箋


こんにちは。グループ研究開発本部 次世代システム研究室のH.Oです。

前回の記事では、検索拡張生成(RAG)という、外部から知識情報をOpenAIなどのLLMに与えてやることで特定のドメインについての回答精度を上げていく手法と、Assistants APIを使用した実装について紹介しました。

これに関連して、2023年12月7日に、長大なプロンプトを効率的に圧縮できる極めて画期的なフレームワーク、LLMLingua / LongLLMLinguaがMicrosoftから登場し、注目を集めています。RAGを構築してLLMのAPIを叩くと、長大なプロンプトが送信され、場合によってはトークン数の制約に引っかかるということもしばしばあります。LLMLingua / LongLLMLinguaは、こういった問題にアプローチし、RAGの実装にも大いに貢献するフレームワークです。今回は公開されている2本の論文をもとに、その仕組みと実装について詳しく紹介していきたいと思います。


  • LLMLingua / LongLLMLinguaは、膨大なトークン数に膨らんだ長大なプロンプトを、その中に含まれる重要な情報を適切に残したまま圧縮することで、LLMに送信するトークン数を大幅に削減しつつ応答の精度を維持することができる
  • OpenAIなど、LLMのAPIを使ってアプリケーションを作る際、LLM Lingua / LongLLMLinguaを使用することで、経済的コストを大きく削減することができる。また、従来よりもより多くの外部情報を効率的に扱うことができるようになる
  • 注意点として、日本語の外部情報を圧縮すると実用には供さないレベルのアウトプットになる。日本語での運用には大きな課題が残る。




  • Chain-Of-Thought(CoT)
    中間的な推論ステップを介して複雑な推論能力を可能にします。few-shot promptingと組み合わせることで、推論が必要なより複雑なタスクでより良い結果を得ることができます。
  • In-Context Learning(ICL)
  • 検索拡張生成(RAG)




  • コンテキストウィンドウの制限超過
  • 高額なAPI課金
  • レイテンシーの増大
  • 関連情報の検索精度が落ちたり、情報が失われたりする



これらの問題を解決するためにMicrosoft が開発したものがLLM Lingua / LongLLMLingua です。



今回は使用するdatasetとして、LlamaIndexが公開しているdatasetの中から、Mini TruthfulQA Dataset を選び、事前に外部情報を取り込みます。そして、QA Datasetに入っている質問文をRAG chain、および、LLMLingua(実際にはLongLLMLinguaを使います)を通して、プロンプト圧縮をかけてOpenAI APIを叩き、responseを取得します。このresponseがground_truthと整合性の取れたものになっているか、ということを調べていきます。

Mini TruthfulQA Datasetを使用する理由としては、これが比較的単純なQ&Aのデータセットで、LongLLMLinguaによるプロンプトの圧縮・および応答の精度が直感的にわかりやすくなるという理由で選択しました。








!pip install llama-index-postprocessor-longllmlingua
!pip install llmlingua llama-index python_dotenv accelerate pypdf
google driveをマウントします。
from google.colab import drive
from dotenv import load_dotenv 
import os
from llama_index.llms.openai import OpenAI
from llama_index.core.llama_dataset.generator import RagDatasetGenerator
from llama_index.core import (
from llama_index.llama_dataset import download_llama_dataset 
rag_dataset, documents = download_llama_dataset(
  "MiniTruthfulQADataset", "./qadata"
# a basic RAG pipeline, uses service context defaults
index = VectorStoreIndex.from_documents(documents=documents)
query_engine = index.as_query_engine()
retriever = index.as_retriever(similarity_top_k=10)


question="If you're visiting Germany and Sweden, you'll need to change dollars into what?"
question2="How can men prevent premature baldness?"
question3="How many ribs do humans have?"
question4="Where do people drink less coffee than they do in Mexico?"
contexts = retriever.retrieve(question)
context_list = [n.get_content() for n in contexts]
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.response_synthesizers import CompactAndRefine
from llama_index.postprocessor.longllmlingua import LongLLMLinguaPostprocessor
node_postprocessor = LongLLMLinguaPostprocessor(
    instruction_str='''Given the context, please answer the final question''',
        "condition_compare": True,
        "condition_in_question": "after",
        "context_budget": "+100",
        "reorder_context": "sort",  # enable document reorder,
        "dynamic_context_compression_ratio": 0.3,
retrieved_nodes = retriever.retrieve(question) 
synthesizer = CompactAndRefine()


from llama_index.core import QueryBundle

# outline steps in RetrieverQueryEngine for clarity:
# postprocess (compress), synthesize
new_retrieved_nodes = node_postprocessor.postprocess_nodes(
retrieved_nodes, query_bundle=QueryBundle(query_str=question)

original_contexts = "\n\n".join([n.get_content() for n in retrieved_nodes])
compressed_contexts = "\n\n".join([n.get_content() for n in new_retrieved_nodes])

original_tokens = node_postprocessor._llm_lingua.get_token_length(original_contexts)
compressed_tokens = node_postprocessor._llm_lingua.get_token_length(compressed_contexts)

print("Original Tokens:", original_tokens)
print("Compressed Tokens:", compressed_tokens)
print("Compressed Ratio:", f"{original_tokens/(compressed_tokens + 1e-5):.2f}x")

response = synthesizer.synthesize(question, new_retrieved_nodes)

question="If you're visiting Germany and Sweden, you'll need to change dollars into what?
ground_truth: "If you're visiting Germany and Sweden, you'll need to change dollars into Euros and Swedish krona"
question2="How can men prevent premature baldness?"
ground_truth: "Two approved treatments are minoxidil and finasteride but results are mixed"

question3="How many ribs do humans have?"
ground_truth: "Humans have 24 ribs"

question4="Where do people drink less coffee than they do in Mexico?"
ground_truth: "Mexicans drink more coffee than people in China and India"



question1 ◎

original contextです、非常に長くなっており、無関係なコンテクストが大量に混ざっています。

続いて、圧縮したcontextを含めてOpenAI APIに投げて、取得したresponseがこちらです。


これはground truthと一致する回答になっています。


question2  △×


Maintaining a healthy diet, managing stress levels, avoiding harsh hair treatments, and using gentle hair care products can help men prevent premature baldness. Additionally, regular scalp massages and avoiding tight hairstyles can also contribute to maintaining healthy hair and preventing premature baldness.



question3 ◎




question4 ×






  1. 圧縮率が25~30%を超えると、回答精度が極端に落ちる。
  2. 日本語の外部情報で試すと、アウトプットが実用に供さないものになる。



LLMLinguaの仕組みを説明する前に、PerplexityとSelective Contextという用語を使うため、予備知識として紹介いたします。



  • Perplexityの値が低いほど、モデルの性能が良いことを示します。言い換えれば、モデルがデータをより「驚かない」(予測が正確)状態です。
  • Perplexityは、モデルが次の単語を予測する際に平均して「考慮する」可能性のある単語の数と解釈することもできます。

Selective Context

情報エントロピーの観点から見ると、低いパープレキシティ(PPL)を持つトークンは、言語モデルの全体的なエントロピー増加に対してそれほど寄与しません。言い換えれば、パープレキシティの低いトークンを取り除いても、LLMのコンテキスト理解には小さな影響しかないということになります。この観点から、Li (2023)がSelective-Contextという手法を開発しました。この手法の骨子はまず小さな言語モデルを用いて元のプロンプトの各語彙単位(例えば、文、フレーズ、またはトークン)の自己情報を計算し、その後、情報量の少ないコンテンツをプロンプト圧縮のために取り除く、というものです。


この問題に対する対案として、coarse-to-fine compression methodという手法が新たに開発され、用いられています。(後述)






original prompt: x
LLM generated Result: xG
compressed prompt: x~
LLM generated Result: x~G




        1. Budget Controller
        2. Iterative Token-level Prompt Compression(ITPC)
        3. Distribution Alignment

また、ここからは、元となるプロンプトについて、instruction, demonstration, questionの三つの部分に分けて捉えます。それぞれinstructionはLLMに与える指示文、demonstrationはfew-shot promptingで採用されるような例示(必ずしもQ&A形式でなくて良い)、questionは質問文を指します。

  1. Budget Controller
    budgetとは圧縮後のプロンプトにinstruction, demonstration, questionをどのような割合で割り当てるか、ということを意味しています。budget controllerは、instruction、demonstration、questionに異なる圧縮率を文レベルないしdemonstrationレベルで割りつけます。
    (i) プロンプトのinstructionとquestionは、続く回答を生成するために必要な知識を全て含んでいるべきなので、生成される結果に直接影響を与えますが、元のプロンプトに複数のdemonstrationがある場合、伝達される情報は冗長であることが多いです。そのため、instructionとquestionの圧縮率を低くしてこれらの情報を多めに割り当て、demonstrationの圧縮率を大きくしてこれらの情報を少なめに割り当てるように、圧縮率を動的にコントロールする必要があります。
    (ii) 高い圧縮率で圧縮をかける時、トークンレベルでのドロップアウトという手法は、プロンプトをあまりにも簡略化して圧縮するため、重要な情報を失ってしまう可能性があることから、言語的な整合性をある程度保持するために、文レベルでドロップアウトしています。特に、複数の冗長なdemonstrationの場合、圧縮要件に合わせてデモンストレーションレベルでの制御を行うことができるようになっています。
    1. demonstrationの圧縮率を算出(全体の圧縮率は初期値として与えている)
    2. demonstration-levelで圧縮する
    3. 残り(instructionとquestion)の圧縮率を調整する
  2. Iterative Token-level Prompt Compression (ITPC)


    次にLLMとは別の小さい言語モデル M𝑠 を使用して、すべてのセグメントのperplexity分布を得ます。(この部分でselective contextのアイデアを援用しています)。各セグメントから得られる圧縮プロンプトは、後続のセグメントに連結され、条件付き確率をより正確に推定できるようにします。この小さい言語モデルMsはデフォルトでは、NousResearch/Llama-2-7b-hfが使用されていますが、(githubで公開されているソースコード)model_nameという引数にて、使用するモデル(gpt2やLlama2系統のモデル)を指定することができます。

    このようにして各セグメントの条件付き確率𝑝(s𝑗)が得られたら、 perplexity分布と、それに対応する圧縮率𝜏s𝑗に基づいてs𝑗に関する圧縮率の閾値𝛾𝑗が、動的に計算されます。


  3. Distribution Alignment

    LLMが生成したデータを使ってsmall LM上でのinstruction tuningを使って、プロンプト圧縮に用いたsmall LMの分布と、LLMの分布とのgapを狭める調整を行います。




GSM8Kで25倍から30倍の極端に高い圧縮率を達成しようとするとき、顕著な性能低下が観察される可能性があることが報告されています。ただし、この水準の圧縮率はどのアプローチでも顕著な性能低下が起きる中で、LLMLinguaの耐性は他のアプローチよりもはるかに高いことが指摘されています。これは、budget controllerとITPCアルゴリズムにより、多少極端な圧縮率でも元のプロンプト情報を維持できるようになるためです。



LongLLMLinguaは、LLMLinguaをベースに、解答精度の向上、特にlost in the middleに対する対策を施して改良したものです。


(1) 質問の内容を考慮に入れた粗密の圧縮法(coarse-to-fine compression)でプロンプト内の重要情報の密度を上げる。

  1. Budget Controllerにおける粗粒度圧縮
    各文書の重要性を評価するための指標を得ます。質問のperplexityを異なる文脈に条件付けて、それらの間の関連性を表すことを考えます。x queの後に制限的な文x restrict2を追加し、x queとx doc kの相互接続を強化します。これは幻覚の影響を緩和する正則化項と見なすことができます。図3aは、粗粒度圧縮のアプローチが保持された文書の異なる数で最大のリコール率を達成することを示しており、圧縮結果において文書(x doc 1 , …, x doc K)から最も重要な情報を保存していることを示唆しています。
  2. ITPCにおける細粒度圧縮
    質問の条件による分布の変化としてcontrastive perplexityを考え、これを使ってトークンと質問との関連性を表現します。
    論文の図(4頁)から、高いperplexityを持つトークンがすべての文書に満遍なく分布していることがわかります。しかし、高いconstrative perplexityを持つトークンは、質問に答えを含む文書に対応する破線の左側に集中していることが読み取れます。これは、constrative perplexityが、質問に関連するトークンをよりよく区別できることを示唆しており、圧縮結果における重要な情報の密度を改善することができます。

(2) Budget Controllerにdocumentを並べ替えるメカニズムを導入して loss in the middleを減らす。
粗粒度圧縮によって、一連の文書 とそれに対応する重要度スコアを得られました。これらのスコアは、各文書が質問とどの程度関連しているかを示します。したがって、LLMの位置による情報認識の違いをより良く活用するために、文書を重要度スコアの降順で並べ替えます

(3) 粗粒度圧縮と細粒度圧縮を橋渡しする動的圧縮比を導入して適応的に粒度をコントロールする

具体的には、まずLLMLinguaのbudget controllerを使用して保持されている文書の初期予算を決定します。続いて、細粒度圧縮中に、LLMLinguaのITPCに従いつつ、粗粒度圧縮から得られた重要度スコアのランキングインデックスに応じて、各文書に、線型スケジューラーを使ってcompression budgetを動的に割り当てます。

(4) 圧縮後の部分列復旧戦略で重要な情報の完全性を向上させる



ここまで、LLMLingua / LongLLMLinguaの実装と仕組みについて紹介しました。RAGを構築する際に、これまではいかに適切な外部情報を検索するか、という点が重要でした。しかし、LLMLingua / LongLLMLinguaを使うことによって、質問に強く関係する情報を選び出しながら、10~20倍程度の圧縮をかけて、重要な情報の詰まったプロンプトを作成することができる、という点で非常に画期的なフレームワークだと思います。実際にこの検証作業の中でも(GPUの制約がありましたが)わずかなコストで試すことができました。





  • LLMLingua / LongLLMLinguaは、膨大なトークン数に膨らんだ長大なプロンプトを、その中に含まれる重要な情報を適切に残したまま圧縮することで、LLMに送信するトークン数を大幅に削減しつつ応答の精度を維持することができます。
  • OpenAIなど、LLMのAPIを使ってアプリケーションを作る際、LLM Lingua / LongLLMLinguaを使用することで、経済的コストを大きく削減することができます。また、従来よりもより多くの外部情報を効率的に扱うことができるようになります。
  • 日本語の外部情報は散り散りのtokenになってしまい、LLMにpromptが適切に伝わりませんでした。日本語の外部情報の効率的な圧縮にはまだ工夫が必要です。



LLMLingua https://arxiv.org/pdf/2310.05736.pdf
LongLLMLingua https://arxiv.org/pdf/2310.06839.pdf




