森羅プロジェクト x LLM
LLMと知識グラフの活用のためのワークショップに参加してきました。
以下ちょっと長い前置き。
- それなりに情報が膨大なWikipediaをベースに、階層構造、リンク情報、表などのページ内情報利用することで関係性を含む情報(ナレッジグラフ)を自動生成する試みが多数行われています。
- 例えば、琉球大学 は 大学 の 一つ(一例) です。この3つの情報のうち「琉球大学」や「大学」をエンティティと呼び、それらがどのような関係にあるのかを示している「一つ(一例)」をリレーションと呼びます。これらをうまく紐づけていくことでリッチな情報源とするのがナレッジグラフの考え方です。
- ナレッジグラフをどう使うかというと例えば知識グラフを利用した質問応答(QA)システムみたいな感じで、昔っから試みられているものです。だけども色んな理由で未だに完結していなくて、皆一緒にやろうよということで表題の森羅プロジェクトに繋がっています。
以下はワークショップでのメモ。
- ハルシネーションへの対策例としてナレッジグラフ使おうというのは分かりやすいストーリーで、多くの人が期待している部分。
- 一方でそもそもナレッジグラフに誤りがある問題(情報源としているWikipedia自体の信頼性)や、ナレッジグラフ構築をリアルタイムにできていない問題(クローリング〜構築までのEnd-to-Endなシステム構築&運用の問題)もあるよねという指摘あり。それはそう。
- 森羅APIの提供を始めたらしい。
- まだ使い方よくわかっていないけど、Access Token取得して設定してやれば、
curl -H "Authorization: Bearer $SHINRA_API_KEY" https://api.shinra-project.info/categories/ | jq .
ぐらいでカテゴリ一覧が取得できるな。
- まだ使い方よくわかっていないけど、Access Token取得して設定してやれば、
- マルチホップQAデータセットを公開予定らしい。
- 2つ以上の情報源をリンクさせて答える必要があるQAで、早ければ今月中に公開とのこと。
- LLMと知識グラフの活用アイデア (RealTime QA)。
- LLMは事前学習時に用意したデータセットからしか答えられない=リアルタイムな情報源に基づいた回答はできない。ということに対応する例として、Bing x GPTっぽく、serapiで検索した結果を含めてLLMに入力することでうまくいくことがあるよという話。検索結果に依存するのは仕方ない。
- LLMのための日本語インストラクションデータ作成プロジェクト
- LLM向けインストラクションデータ(1万セット)を作成し、公開する予定らしい。今から作るのだけど「こういうふうに作る予定」「例えばこういうもの」という紹介をするらしいので、その辺りに興味ある人は参加すると良さそう。
Slack用意してくれてるし、デモセッション(アイデア参加に対してデモ作成へサポートしてくれるらしい)用意してるっぽいので、興味ある人は参加してみると良さげ。