ルールベースチェックでのAI利用

checklist

以下は、それぞれのページについてGPTとGrokで同じルールを使って判定した結果です。 GPT、Grokともにルールに点数をつけるルールをいれての確認で、追加で明示的に点数をつけるように指示しましたが、どちらも点数をつけるルールを理解できていませんでした。さらにGPTは、点数をつけるルールを見逃している点を指摘しても、勝手な採点ルールで点数を付けました。再度やり直して得られた結果が次です。

URLGPT採点Grok採点
https://president.jp/articles/-/10317873100
https://www.zakzak.co.jp/article/20251120-NRES442BJ5C6FMPTSOEWOPZCOU/4/77100
https://x.com/TrumpPostsJA80100
https://mic.or.jp/info/2025/11/21/web-4/– *1100

*1:GPTは該当ページを参照できず、採点できませんでした。

GPTは、厳しめの判定をする傾向があるようです。 アクセスできないケースが頻繁に発生するため、安定運用は難しいかもしれません。 厳しめに見るのは、活用シーンによっては有難いのですが、別のポリシーも厳しくアクセスができないという問題も発生してしまっています。

どう使うかは、利用者次第ですが、最初に示したように、チェックごとに結果が変わるので、作成したルールを期待通りに活用できているかを何からの方法で定期的にチェックしたほうが良いかもしれません。 チェックを行うごとにチェックの正確さが変わっていく恐れがあります。採用試験のように試験官の個人差の影響を受けないつもりでAI導入したのに、実際には同じ基準では運用できていなかったというような問題が発生しかねません。結局は、AI活用は利用者責任で利用していかなければならないのでしょう。

 しかし、自動運転での活用では誰の責任になるのか、どうなるのかこのような状況では厳しいでしょう。現状はオーナー(購入者)が責任を取る必要があるパターンがあるとされています。 問題がある場合は起動できないようにするなどの仕組みが必要でしょう。実際に購入する前に想定外の責任を背負わされないように確認しておいたほうが良いでしょう。早い段階で、このようなリスクを誰がとるかの取り決めが明確になり、利用者や購入者(お金を払う側)が責任を負わされるようなケースがなくならないと、AIバブルがはじけてしまうかもしれません。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です