
研究論文では、Apple Intelligence の設計方法と、同社がモデルの安全性を確保するために講じている手順について説明しています。
この論文では、デバイス上の AI 機能の規模と複雑さについても垣間見ることができ、iPhone、iPad、Mac 上で完全に実行されるコアモデルには約 30 億のパラメータがあることが指摘されています。
ジョン・グルーバー氏が見つけたこの論文は、数週間前に発表された。
私たちは、デバイス上で効率的に動作するように設計された約30億のパラメータモデルや、プライベートクラウドコンピューティング用に設計された大規模なサーバーベースの言語モデルなど、Apple Intelligence機能を強化するために開発された基礎言語モデルを紹介します[Apple、2024b]。
これらのモデルは、幅広いタスクを効率的、正確、そして責任を持って実行できるように設計されています。本レポートでは、モデルのアーキテクチャ、モデルの学習に使用されるデータ、学習プロセス、推論のためのモデルの最適化方法、そして評価結果について説明します。責任あるAIへの私たちの注力と、その原則がモデル開発全体を通してどのように適用されているかについて説明します。
問題のある素材を積極的に探し出す
生成型AIの大きな課題の一つは、ウェブ上の幅広いユーザー生成コンテンツで学習されているため、人間性の最悪の部分を反映する可能性があることです。Appleは、問題のあるコンテンツを積極的に特定し、排除するよう努めているとしています。
私たちは、AIツールとモデル全体において、ステレオタイプや体系的なバイアスが永続化しないよう、継続的に取り組んでいます。設計、モデルの学習、機能開発、品質評価など、プロセスのあらゆる段階で予防措置を講じ、AIツールの誤用や潜在的な危害につながる可能性を特定しています。ユーザーからのフィードバックを参考に、AIツールを継続的かつ積極的に改善していきます[…]
さらに、公開データから卑猥な言葉、危険なコンテンツ、個人を特定できる情報を排除するための多大な努力が払われました。
トリガーフレーズを使ったテスト
使用される具体的なアプローチの 1 つは、許容できない応答を生成する可能性のあるトリガー フレーズを使用してモデルを意図的にテストし、その後、除染プロセスを適用してこれらを除外することです。
Apple は、ライセンスを取得したデータセットや Applebot によってクロールされた Web サイトでもこれを実行していると述べています。
Appleの価値観に照らして出力を検証する
次に、Apple はポストトレーニングと呼ばれるプロセスを適用します。これは基本的に、出力をレビューして検証し、微調整するものです。
事前学習済みのAFMモデルに汎用的な指示追従機能と会話機能を組み込むため、学習後の手法について広範な研究を行っています。私たちの目標は、これらのモデル機能が、ユーザーのプライバシー保護への取り組みや責任あるAI原則など、Appleのコアバリューと原則に合致していることを保証することです。
人間によるレビューの4つの基準
人間によるレビューはさまざまな出力を比較するために使用され、レビュー担当者はさまざまな基準で評価するよう求められます。
- 正確さ
- 有用性
- 無害性
- プレゼンテーション
これらの評価は、モデルが何を生成することを目指しているかについての理解をさらに深めるために使用されます。
レッドチーム
同社はまた、「レッドチーム」と呼ばれる手法も活用しています。これは、AIモデルの侵入テストとも言えるもので、人間による攻撃と自動化された攻撃を組み合わせて、モデルの脆弱性を見つけようとします。
レッドチーム演習は、根本的に創造的な取り組みであり、レッドチームメンバーは複数の攻撃ベクトルを組み合わせて、既知のモデルの脆弱性を調査し、新たな脆弱性を発見しようとします。言語モデルへの攻撃に使用される攻撃ベクトルには、ジェイルブレイク/プロンプトインジェクション、説得的手法[Zeng et al., 2024]、そしてモデルの誤動作を引き起こすことが知られている言語的特徴(例:スラング、コードスイッチング、絵文字、タイプミス)などがあります。
我々は、手動と自動の両方のレッドチーム演習[Ganguli et al., 2022]を実施し、整合されたモデルの潜在的に未知の障害モードを解明しました。より最近の研究[Touvron et al., 2023]では、自動化プロセスは、これまでデータ収集の「ゴールドスタンダード」と考えられてきた人間よりも、さらに多様なプロンプトを生成できる可能性があることが示唆されています。
この論文では、この点などについて非常に詳しく説明しています。
- クレイグ・フェデリギ氏、Appleの新たなプライバシー機能について語る。AppleはAIからどのように私たちを守るのか
- Apple Intelligenceのプライバシーは「特別な措置」により独立して検証可能
- Apple Intelligenceはユーザーのリクエストに関する詳細なプライバシーレポートを提供する
UnsplashのKevin Kuによる写真
varlong.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。