情報処理学会で発表してきたよ!

活動

9月4日(木)、北海道科学大学(札幌)で開催された FIT2025(第24回情報科学技術フォーラム) に参加して、F分野「人工知能・ゲーム」の一般講演 F-029 で登壇してきました。会期は9月3日(水)〜5日(金)、ハイブリッド開催でした。
当日のFセッションは「知能システム」枠で、9:30–12:00/4j会場。私の発表タイトルは—

「RAGとしてAI ChatBotに与えるデータベースの構造に関する一考察」(F-029)

でした(プログラムにも載っています)。情報処理学会

どんな研究?

一言で言うと、RAG(Retrieval-Augmented Generation)向けに、どの“ファイル形式”で知識を与えると検索精度が安定するのかを、実験で確かめた研究です。社内FAQのようなQ&Aデータを DOCX/PDF/TXT/CSV/XML/JSON/JSONL に変換してベクトルDBに登録し、どの形式がLLMの検索に強いかを比較しました。

・前処理:テキスト抽出 → チャンク分割 → メタデータ付与 → 埋め込み生成
(チャンク長 1000文字、オーバーラップ 200文字

・埋め込み:intfloat/multilingual-e5-large

・LLM:Gemini 2.0-flash

・実装:LlamaIndex を使用
こうした条件を固定して、100問セット1000問セットで評価しています。

主要な結果(かんたん版)

100問実験
JSON/JSONLは全問正解(10/10)。DOCXは 70%(7/10)、PDF・TXT・CSV・XMLは 90%(9/10) と好成績。
構造化度が高い形式(JSON/JSONL)が強いことが確認できました。

1000問実験
規模を大きくすると傾向が少し変わり、CSVが8/10で最良、JSON系は7/10、DOCXは4/10に低下。
大規模になるほど、CSVのような単純構造が堅牢で、レイアウト依存の強いDOCXは不利になりやすい、という示唆が得られました。

ここがポイント!

「まずは構造化」
実運用では、「DOCXやPDFをCSV/JSON等に“統一”」してからVDB化すると、精度・安定性の両面で効きます。

前処理の質がモノを言う
改行やタブの揺れ、項目の紐づけミスが性能を落とす要因。クレンジングとスキーマ検出の自動化がカギ。

チャンク設計は“適材適所”
小さすぎると情報不足、大きすぎるとノイズ混入。用途とデータ構造に合わせた粒度調整が必要です。

会場の雰囲気と学び

朝イチのセッションで起きるのが大変でしたが、AI×RAGの話題はやっぱり関心が高く、様々なRAG活用の発表がありました。

自分の発表も、複数回練習した成果が出てスムーズに進めることができました。 さらに、質問もいくつか頂きました。

他の発表者のプレゼンもRAG応用や設計支援など実践的なテーマが多く、現場での使いどころを再確認できたのが興味深かったです。

学会に行っての感想

行く前は、学会は最先端の研究を発表する堅苦しい場所だと思っていましたが、実際には日ごろの研究や開発の成果を発表する場所でした。雰囲気も緩い感じであまり緊張せずに、発表をすることができました。

同じグループにユニークな人がいたので、自分の中で学会が行きやすい場所だと認識できました。

発表が終わった後の、少しの観光も充実してました!北海道の海鮮を食べたり、まりもを買ったりしました。

お土産屋さんで買ったマリモです!ネットショッピングで買うよりも安いのでおすすめです!!これは大きいの1つ、中くらい1つ、小さいの2つで1000円でした。

発表後、この豪華な海鮮丼を先生に奢ってもらいました。いつも食べるサーモンと比べると身がぷりぷりでうま味もかなりあって、おいしかったです。

これからやること

・自動クレンジング&スキーマ検出の強化(例外パターンを機械的に吸収)

エラー検出とフィードバックループの導入(性能の劣化を早期に検知)

データ規模と分割戦略の最適化(カテゴリ別分割やファイル粒度の再設計)
このあたりを固めて、“大規模でもブレないRAG基盤”に育てていきます。

最後に

共同研究・データ提供にご協力いただいた皆さま、セッションで貴重なコメントをくださった皆さま、本当にありがとうございました。今後は、実運用に向けての開発を進めていこうと思います。

札幌は涼しくてごはんも最高。学会の空気っていいな、と改めて感じました。また次に向けて、コツコツ進めていきます!

コメント

タイトルとURLをコピーしました