AI安全性

基本情報

正式名称

AI安全性（AIセーフティ）

読み方

えーあいあんぜんせい

原語

AI safety

原語（国際音声記号）

/eɪ aɪ ˈseɪfti/

定義の要約

AIシステムが意図しない事故・誤用・悪用で人や社会に害を与えないよう、リスクを予測・防止・緩和するための研究と実務の総称。

NDC分類

000-000-007

最終更新日

2026-03-11

基本解説

AI安全性（AIセーフティ）は、AIが人間や社会にとって有益な形で動作し、潜在的な害を最小化するよう設計・運用するための枠組みを指す。具体的には、①AIモデルの予期せぬ誤動作、②悪意ある第三者によるAIの悪用、③差別・プライバシー侵害などの倫理・法・社会的リスクを含む広い領域をカバーする。

技術的には、堅牢性向上（敵対的攻撃への耐性）、監視とフィードバック、フェイルセーフ設計、AIアライメント（人間の価値観との整合）、AIセキュリティ（Security for AI）などが主要テーマとなる。

語源・発見者

「AI safety」という用語は、AIの事故・暴走・長期的リスクに注目する研究コミュニティで2000年代以降に定着し、日本語では「AIの安全性」「AIセーフティ」と訳される。近年は各国政府・AI Safety Instituteなど公的機関の設立により、技術研究だけでなくガバナンスや規制を含む包括的な概念として用いられている。

具体例・用途

自動運転では、センサー異常時のフェイルセーフ設計や、歩行者検知ミスを最小化する検証がAI安全性の一部となる。

生成AIでは、有害コンテンツ生成防止、個人情報の出力抑制、ディープフェイク悪用対策などがAI安全性として議論される。

長期的には、AGI/ASIが人間の価値観から逸脱しないようにするAIアライメント研究も、AI安全性の中核領域として扱われている。

▶ 詳細ページを見る

AI安全性

基本情報

基本解説

語源・発見者

具体例・用途

関連情報

関連記事