学术观点 | 邱杰宏:人工智能方法在经济研究中的应用:从机器学习到基础大模型
发布时间:2025-05-30|作者:王嘉诚 钱芬 张丁栏目:工作论文点击:

公共政策研究院(简称:浙财监管智库)举办了第五期“浙财监管学术沙龙”。香港理工大学工学院工业系统与工程系高级研究员、美国华盛顿州立大学博士邱杰宏应邀作了题为“人工智能方法在经济研究中的应用:从机器学习到基础大模型”的学术讲座。邱杰宏博士的主要研究领域为AI建模、大语言模型、机器学习、因果推断分析。

邱杰宏博士首先厘清了人工智能的核心概念体系,并讲述了经济学与人工智能相结合的研究现状。目前,第一类人工智能与经济学相结合的研究是把人工智能本身作为研究对象,探究其对经济发展产生的影响。第二类研究是把人工智能作为工具,引入到计量经济学方法中。本次讲座的重点为如何借助人工智能进行计量经济学研究。对此,邱杰宏博士介绍了机器学习与传统的计量经济学方法之间的差异及将机器学习引入计量经济学中的原因。机器学习可以处理复杂数据关系,从而降低传统因果推断方法对方程形式的假设的依赖性,从而提升传统因果推断统计方法的鲁棒性。许多问题可以被分解为预测部分和因果部分,现成的机器学习方法可以处理预测部分,并能更好处理因果识别中的异质性问题。

邱杰宏博士结合Chernozhukov et al.(2018)详细讲解了如何用机器学习来进行因果推断。该文章使用双重机器学习(DML)方法来估计参与401k对金融家庭资产的影响。引入机器学习(如 Lasso)可以选择自动剔除无关变量,解决高维数据中的多重共线性。无需强假设函数形式,可拟合复杂关系(将 9 维变量扩展为 220 维多项式特征,再通过 Lasso 筛选)。用工具变量和DML估计“参与401k”的因果效应,避免直接回归导致的偏差。使用随机森林、神经网络等非参数模型,无需预设函数形式,直接从数据中找到变量之间的关系。机器学习可以灵活拟合复杂关系,减少因函数形式误设导致的偏差,传统线性回归因遗漏交叉项低估效应,而 DML 通过高维特征筛选得到更一致的估计。此外,邱杰宏博士对大语言模型的现状及在经济学研究中的应用进行简要介绍。Google开发的TimesFM Model可以用来进行时间序列预测,且该模型甚至达到并超过在目标任务上专门训练的有监督模型(如 PatchTST)。以Qiu et al.(2025)为例探讨大语言模型在经济研究的作用。本篇文章中所有的年报数据均以PDF的形式存在。我们首先对PDF的文档进行信息抽取,并取出所有的表格、图表、数字及特殊符号,只保留文本信息。然后,对处理后的数据进行分词,用大语言模型获取每个个股的模糊性衡量指标。

最后,邱杰宏博士对Ludwig et al.(2025)的研究内容做了简要介绍。越来越多的经济学家、金融学家依赖大语言模型来处理海量文本数据。但面临训练数据不透明、可能出现training leakage等问题。那么如果 LLM 被用来预测某个变量,它的样本预测误差是否能代表总体误差?以及如果 LLM 被用来生成标签/变量,作为经济估计中的一部分(例如回归因变量、控制变量等),是否会引入偏误?为此作者将应用计量经济学的实证任务分为预测任务和估计任务,并构建模型来研究大语言模型(LLM)在预测任务中是否“泛化”。


本次学术沙龙由浙财监管智库数字经济与反垄断监管研究部部长甄艺凯副研究员主持。在讲座过程中,邱杰宏博士和我院师生就相关问题展开了沟通与交流。

相关文献:

[1] Chernozhukov, V., Chetverikov, D.,

Demirer, M., Duflo, E., Hansen, C., Newey, W., & Robins, J. (2018). Double/debiased machine learning for treatment and structural parameters.

[2] Jiehong Qiu, Lingfang(Ivy) Li, and Jiang An, Information Ambiguity and Stock Price Crash Risk,2025, working paper.

[3] Ludwig, J., Mullainathan, S., & Rambachan, A. (2025). Large language models: An applied econometric framework (No. w33344). National Bureau of Economic Research.