生成人工知能の生産性への影響 - 濰坊フステラトリス株式会社

オートメーション技術、つまり人間の労働者の代わりに生産的な作業を実行できる機械は、産業革命以来、人類の経済史において大きな役割を果たしてきました。 19 世紀の繊維生産の自動化から 20 世紀初頭の農業の機械化に至るまで、歴史的な自動化の波は部門別の大規模な労働力の再配分を推進し、都市化と大規模な社会変化を促進しました。これらの自動化の波は、短期および中期的には完全に有益とは程遠いものでしたが(Acemoglu and Johnson 2023)、最終的には先進国の生産と生活水準の大幅な成長に貢献しました。

1970 年代から 2020 年代初頭まで、高所得国における自動化の物語はかなり一貫したものでした (Autor 2015)。機械の進歩、コンピュータの台頭、デジタル技術の普及により、工場現場の組立ライン作業から簿記や会計の事務作業に至るまで、「中級技能」の作業が徐々に自動化されていきました(Autor et al. 2003)。これらのタスクは、離散的で形式化可能な一連のステップで構成され、ますます安価なコンピューターや機械にプログラムされる可能性があり、多くの職業から人間が置き換えられる可能性があります。

こうした「ルーチンに偏った」自動化の漸進的な波は、広く議論されている労働市場の「二極化」の一因となった。中賃金の製造業や事務の仕事はゆっくりと溶けていく一方で、低賃金の清掃業、小売業、パーソナルケアの仕事に新たな仕事が現れた。高賃金の管理職、技術職、専門職も含まれます。その結果、この期間に賃金と所得の不平等が劇的に拡大し、かつて自動化に苦しむ職業に集中していた人口構成グループが遅れをとり(Acemoglu and Restrepo 2022)、高所得の専門家や資本所有者が後を追いました(Moll et al. 2022)。

2010 年代に入り、経済学者たちは、機械学習の急成長分野が自動化を新しい方向に導く可能性があると観察しました。以前は、タスクをコンピュータまたはマシンに正式に説明できる明示的なステップのシーケンスに分解できた場合にのみ、タスクを自動化できました。執筆から医療診断、グラフィックデザインに至るまで、創造性や暗黙の形式化が難しい知識を必要とする多くのタスクは、そのため自動化を避けてきました。しかし2010年代、経済学者らは、明示的な指示を提供するのではなく、大規模な既存のデータセットに基づいてコンピューターを帰納的に訓練する新興の「ディープラーニング」技術により、最終的には創造的なタスクや暗黙知に依存するタスクの自動化も可能になる可能性があると指摘した。

機械学習ベースの自動化技術の第一波は、保釈決定、雇用決定、医療診断などの「予測」タスクを対象とした(Kleinberg et al. 2018、Chalfin et al. 2016、Mullainathan and Obermeyer 2022)。機械学習アルゴリズムは、高次元の入力データから二値予測を行うことにますます優れており、放射線科のような職業の将来についての懸念を引き起こしています。しかし、創造的なタスクは依然として自動化の脅威から安全に隔離されているように見えました。

この状況は、2022 年中頃から後半にかけて印象的な「生成型」人工知能システムが一般公開されたことで変わりました。これらのシステムは、書かれたプロンプトに応じて一貫性のある大規模なテキストや適切に作成された画像を生成する深層学習技術を使用して訓練され、大幅に改善されました。既存のチャットボットや画像生成ツールよりも優れた機能を備えています。クリエイティブライティングやデザインタスクが差し迫った広範な自動化に直面する可能性があることが初めて明らかになりました。

最近の論文 (Noy and Zhang 2023) では、テキストベースの生成 AI システム、特に ChatGPT 3.5 の潜在的な生産性と労働市場への影響を初めて明らかにするオンライン実験の結果を報告しています。

私たちは、学術社会科学研究の中心である調査プラットフォームである Prolific 上で実験を実施しました。私たちは、プラットフォーム上で数万人の回答者をスクリーニングし、関心のある職業 (マネージャー、人事専門家、助成金作成者、マーケティング担当者、コンサルタント、データアナリスト) に属する大卒の回答者のサブセットを特定しました。これらの回答者は、次の能力に基づいて選ばれました。オンライン調査を通じて実施できる、現実的で職業に特化した 20 ～ 30 分の執筆タスクを考え出します。マネージャーと人事担当者は機密性の高い電子メールを作成し、マーケティング担当者は仮説上の製品のプレスリリースを作成し、助成金ライターは助成金申請書を作成し、コンサルタントは短いレポートを作成し、データアナリストは分析計画を作成するように割り当てられました。参加者の約 85% は、そのタスクが自分の職業で行われる実際のタスクを「現実的」または「非常に現実的」に模倣したものであると評価しました。

私たちのスクリーニング段階を通過した優秀な回答者は、職業固有の 2 つの執筆タスクを含む 1 時間のアンケートに回答するよう招待されました。参加者には基本料金 10 ドルが支払われ、課題で良い成績を収めるように大きな奨励金が与えられました。課題の提出は同じ職業に就いている他の Prolific 回答者によって採点され、成績に応じて最大 14 ドルのボーナスが支払われました。私たちのサンプルにおける平均支払総額は 1 時間あたり 17 ドルで、Prolific の一般的な 1 時間あたり 12 ドルを大幅に上回りました。市場水準を上回る給与と強力なインセンティブを組み合わせることで、参加者から多大な努力を引き出すことに成功し、参加者は最初のタスクに平均 27 分を費やしました。

最初のタスクと 2 番目のタスクの間で、参加者は無作為に治療グループまたは対照グループに割り付けられました。治療を受けた参加者には、ChatGPT にサインアップし、いくつかのサンプルプロンプトを入力してテクノロジーの使用方法を示すように指示されました。対照参加者には、オーバーリーフにサインアップするように指示されました（治療と対照の間の調査時間をできるだけ同じにし、選択的減少を最小限に抑えるため、2番目のタスクでオーバーリーフを使用した対照参加者はほとんどいませんでした）。治療を受けた参加者には、ChatGPT が役立つと判断した場合、2 番目のタスクでの使用を許可することが伝えられました。

治療グループは圧倒的に 2 番目のタスクで ChatGPT を使用することを選択しました。アカウントへのサインアップに成功したグループの 87% が ChatGPT を使用しました。治療を受けた参加者はこのテクノロジーに非常に感銘を受け、平均有用性スコアは 5.0 点中 4.4 でした。ほとんどすべてのユーザーは、単純にタスクプロンプトを ChatGPT に貼り付け、その出力を未編集または軽く編集したバージョンを送信しました。予想に反して、ChatGPT を他の方法で使用することを選択した参加者はほとんどいませんでした。たとえば、自分の草案を編集したり、アイデアをブレインストーミングしたり、出力を大幅に編集する前に下書きを書いたりするために使用するなどです。

その結果、2 番目のタスクに費やされる時間は、対照グループと比較して治療グループの 2 番目のタスクに急激に減少し、40% 減少しました (図 1 パネル A)。平均成績は 18% 上昇しました (図 1 パネル B)。成績の上昇は主に、純粋な人間の出力と比較した純粋な ChatGPT の出力に対する採点者の高い評価を反映しており、治療を受けた参加者自身の付加価値を反映していないようです。

図1生産性への影響

なぜ参加者は ChatGPT の出力をほとんど編集しなかったのでしょうか? 可能性の 1 つは、彼らが成果や改善の余地がある領域に明らかな欠陥があることを認識していながら、できるだけ早くタスクを完了したいと考えていたことです。この解釈の下では、参加者は ChatGPT を時間を節約するデバイスとして単に使用し、その出力品質を無視しており、私たちの実験の外部妥当性を一か八かの現実世界に還元していました。

3 つの証拠がこの解釈と矛盾しています。まず、参加者の 40% が、7 段階中 6 または 7 の高い評価を得ると、かなりの追加ボーナスの支払いを約束する「凸型」インセンティブスキームに相互ランダム化されました。これにより、ChatGPT の未加工の修正または改善に対する追加のインセンティブが提供されました。しかし、このグループの回答者は、主要な「線形」インセンティブグループの回答者よりも平均して編集に費やした時間は長くなく、より高い評価も得られませんでした。第二に、編集することを選択した（または編集に長い時間を費やした）回答者は、編集されていない出力を提出した回答者よりも高い評価を獲得できませんでした。第三に、多くの回答者が、ChatGPT は時間を節約するデバイスであるだけでなく、出力を向上させるデバイスであると明確に判断しました。調査の終わりに、治療を受けた一部の回答者には、ChatGPT を使用して治療前タスクの提出を修正または置き換える機会が与えられました。 19% はエントリを ChatGPT の出力に完全に置き換え、さらに 17% は ChatGPT をエディタとして使用しました。私たちの全体的な解釈は、参加者は ChatGPT の出力が高品質であり、明らかな改善点が欠けていると考えていたということです。

図 2 に示すように、治療グループ内で ChatGPT を広く均一に使用した結果、参加者間の生産性の不平等が劇的に縮小しました。ChatGPT へのアクセスにより、治療グループのほぼ全員が対照グループのトップと同様にパフォーマンスを発揮できるようになりました。

図2成績格差が縮小する

この驚くほど生産的なテクノロジーを紹介されて、参加者はどのように反応しましたか? 私たちは参加者にそれぞれのタスクの楽しさを尋ねました。図 3 パネル A が示すように、対照群と比較して治療群では楽しみが標準偏差 0.5 増加しました。 AIが自分の職業の労働者を置き換えることについての参加者の懸念が治療群で高まり、AIが自分の職業の労働者を強化することへの興奮も高まったが、全体としてAIに対する楽観的な見方はわずかに上昇した。したがって、回答者は全体的にこのテクノロジーを熱心に歓迎しましたが、不安がないわけではありません。これらのギャップはその後の再調査で消えました。

図3仕事の満足度、自己効力感、自動化に関する信念

ChatGPT の実際の仕事への普及を追跡するために、実験の 2 週間後、さらに 2 か月後に参加者に再調査を行いました。 2 週間後、治療を受けた回答者の 34% と対照回答者の 18% が、過去 1 週間に仕事で ChatGPT を使用していました。 2 か月後のこの数字は 42% と 27% でした。使用量の緩やかな増加と継続的な治療管理ギャップは、ChatGPT の現実世界の仕事への普及が依然としてやや遅れており、情報摩擦によって妨げられていることを示唆しています。 ChatGPT を主な仕事で使用していない回答者は、その理由として、慣れていないこと、職場でアクセスできないこと、またはコンテキスト固有の知識とスタイルが仕事に重要であるために ChatGPT が役に立たないことなど、さまざまな理由を報告しました。

ChatGPT は、中級レベルのプロフェッショナルなライティングタスクの生産性に大きな影響を与え、速度と品質を向上させ、能力の高いライターと低いライターの間の差を縮めます。ただし、その全体的な影響は、私たちの実験では説明できない複雑な一般平衡の考慮事項に依存します。論文で説明しているように、ChatGPT 関連サービスの需要の弾力性、ChatGPT が最適に補完する特定のスキル、ChatGPT による最適な生産構造の性質に至るまで、多くの要因が ChatGPT のようなテクノロジーの影響を決定します。雇用、職業、賃金構造について。

Acemoglu、D および P Restrepo (2022)、「タスク、自動化、および米国の賃金不平等の増大」、エコノメトリカ 90(5)。

アセモグル、D および S ジョンソン (2023)、権力と進歩: テクノロジーと繁栄をめぐる私たちの 1000 年闘争、ニューヨーク: 広報。

Autor、D、F Levy、R Murnane (2003)、「最近の技術変化のスキル内容: 経験的探求」、Quarterly Journal of Economy 118(4)。

Autor, D (2015)、「なぜまだこんなに仕事があるのか? ワークプレイスオートメーションの歴史と将来」、Journal of Economy Perspectives 29(3)。

Chalfin、A、O Danieli、A Hillis、Z Jelveh、M Luca、J Ludwig、S Mullainathan (2016)、「機械学習による人的資本の生産性と選択」、American Economy Review 106(5)。

Kleinberg、J、H Lakkaraju、J Leskovec、J Ludwig、S Mullainathan (2018)、「人間の意思決定と機械の予測」、季刊経済ジャーナル 133(1)。

Moll、B、L Rachel、P Restrepo (2022)、「不均一な成長: 自動化が所得と富の不平等に及ぼす影響」、Econometrica 90(6)。

Mullainathan、S および Z Obermeyer (2022)、「Diagnosing Physician Error: A Machine Learning Approach to Low-Value Healthcare」、Quarterly Journal of Economy 137(2)。

Noy、S、W Zhang (2023)、「生成人工知能の生産性効果に関する実験的証拠」、研究論文。

図1 図2 図3