我整理旧照片时,找到一张五年前给国资委某数字化工作小组讲大数据应用的照片:

投影屏幕上PPT的案例,是在那个数字化转型热潮期中,我常讲的一个大数据故事:

故事主人翁是一位哈佛学霸杰夫·塞德(Jeff Seder)。他于70 年代创立了一家名为“赛马生物力学与运动生理学”(Equine Biomechanics & Exercise Physiology ,简称EQB)的公司,通过数十年的大数据和生物特征研究,改变了传统血统至上的育马、选马理念,帮助客户发掘多匹顶级赛马,包括2015年大满贯马匹“美国法老”(American Pharoah)。

赛德大学专业是纯文科生的心理学专业,然而在此之上,除了在数据科学领域声誉卓著外,他还是执业律师、机械工程师、计算机程序员、连续三十年炒股未有败绩的投资家、养马场老板、电影制作教育家、哈佛医学院预科生、哈佛法学博士、哈佛 MBA。

大家更熟悉的大数据故事可能是2012 年的电影《点球成金》(Moneyball)。

这部由同名小说改编的电影,讲述了2002年,布拉德·皮特主演的“奥克兰运动家”棒球队的总经理比利·比恩(Billy Beane),他曾是高潜力球员但职业生涯失败,转而用科学的数据分析方法来对抗大球队的高薪挖角。他带领这只资金有限的弱队,用数据分析来挑选、训练和管理被传统球探低估的球员,在美国职业棒球联盟赛上创造出20连胜惊人战绩。

比利采用的方法来自一位棒球统计学专家威廉·詹姆士(George William James)。詹姆士生于1949年10月,从1977年开始,他自费出版《棒球摘要》(Baseball Abstract)系列书籍,通过统计数据重新解读棒球,挑战传统棒球智慧(如重视打击率、牺牲短打等)。他创造了大量统计指标,用基于数据的统计分析回答“球队为什么赢/输”,强调上垒率(OBP)、长打率等比传统指标更能预测胜利。

詹姆士创造了“计量棒球学”Sabermetrics一词(源自Society for American Baseball Research,SABR)。这个学问套路在80 年代特别流行,我念大学时的一门核心功课是“计量经济学”Econometrics,就是用统计学方法来解决经济问题。

帮助比利实施计量棒球学的助手名为保罗·德波戴斯塔(Paul DePodesta),他在1995年以优异成绩(cum laude)毕业于哈佛大学经济学专业,在校期间曾参加棒球和橄榄球队,因为在奥克兰运动家队的成功,他跳槽了多家职业棒球队担任总经理、首席战略官等职。2015 年,他跳槽到了美国橄榄球联盟(NFL) 一只球队,将统计学方法应用于橄榄球队的训练和管理。

如今,几乎所有美国职业棒球联盟的球队都采用了这种统计学方法。

而赛德就是赛马界的Moneyball。

赛德是一个文科生,他全名Jeffrey A. Seder,出生于1948年,1966年进入哈佛大学,以文学学士(AB)心理学专业优等生资格(magna cum laude)毕业,同时获得本科生 Phi Beta Kappa 荣誉学会会员资格。本科期间,赛德是校报《哈佛深红报》(The Harvard Crimson)的记者,还是校摔跤队(Varsity Wrestler)选手,参加过多项重要比赛,曾接近奥运选拔水平。

赛德本科后继续在哈佛求学,他曾拿到奖学金修读医学预科,后又转学到一个商学院和法学院的联合培养项目, 1976年从哈佛法学院获得法学博士(JD) 学位,同时从哈佛商学院获得 MBA 学位。他的法学院论文导师之一是著名水门事件特别检察官 Archibald Cox。在此期间,他还通过了通用汽车技术学院(General Motors Technical Academy) 的卡车机械师培训,并获得相关认证。

在哈佛念了十年书后,赛德加入华尔街的银行短暂工作了一段时间后,就开启了自己的赛马生意生涯。

赛德对赛马的热爱始于法学院期间,他曾做过赛马马夫、训练中心经理,并亲自练习骑乘赛马。在四十多年里,他建立了庞大的专有生物特征数据库,开发了多项创新设备,包括:用于测量赛马的便携式心脏超声波扫描仪,步态分析系统,心率监测与视频分析工具等

他的核心研究发现包括:赛马左心室大小与运动表现高度相关,此外还涉及脾脏、骨骼强度、步幅效率等生理指标。这些工作结合了体育科学、统计分析和实地测量,发表在多个科学期刊上。

2013年,在美国赛马机构的周岁马拍卖会上,赛德和他的团队(主要是擅长传统血统鉴定的女赛马师、EQB 的合伙人Patti Miller),通过心脏等生物特征扫描,向埃及裔马主 Ahmed Zayat 强烈推荐一匹当时血统不算顶级的马匹,最终以约30万美元捡漏购得——仅为优良血统的周岁马价格的三分之一。

赛德给他咨询客户的建议是:

宁愿卖房子也别卖掉这匹马

《纽约时报》报道

这匹被命名为“埃及法老” (American Pharoah)的赛马在两年后,成为37年来首匹美国三冠王(Triple Crown),同年还赢得了育马者杯经典赛(Breeders’ Cup Classic),成为现代赛马史上第一匹大满贯得主(Grand Slam)。

EQB作为选马代理人及咨询顾问,为众多顶级马厩提供咨询服务,帮助客户以低于平均价格购入多匹冠军马,赛德还运营着一家赛马训练农场。

在赛马领域外,赛德曾参与美国奥运体育医学委员会,曾用类似数据分析方法帮助训练美国雪橇队。创立非营利组织The Big Picture Alliance,为城市弱势群体青少年提供电影制作的职业教育。

赛德是宾夕法尼亚州执业律师,他自己还作为独立投资人和受托人,运作了一笔投资基金,据称从1994 年创立基金至今,没有一年有亏损记录。

赛德在哈佛读书期间就参与了一家成立于1903 年,位列全美前十、主打高端精品风格的软装家居面料的制造和销售公司。

他作为董事长、CEO带领这家企业从1984 年的亏损状态转型,使其成长为美国业内声誉卓著、盈利能力顶尖的纺织企业(下图,2000 年后美国工业衰退,这家位于费城的百年工厂今天已经不复存在)。

赛德自述这家工厂是全美最早实现全流程计算机集成运营的企业之一。流程计算机集成运营的系统在那个年代叫CIMS(computer integrated manufacturing system),后来就叫ERP、MES,到今天叫“智能制造”,而赛德称他家智能制造系统的所有软件代码都是他自己一个人写的。

这就是一名哈佛文科生学霸的画像。

最后我解释下,大数据分析和现在说的人工智能(AI)有密切联系,但不是一回事:

大数据分析:重点是收集、存储、处理和分析海量数据,通过统计学、相关性分析、多变量模型等方法,从数据中找出规律、趋势或预测信号。工具是数据库、统计软件、测量设备等。

AI:是基于统计学原理的高级发展(参见《中国企业级数据科学行业还需努力》),通常指机器学习(Machine Learning)、深度学习等技术,让计算机自动从数据中学习模式,无需人工手动设定所有规则,能处理更复杂、非线性的关系,并不断优化预测。 基于大语言模型的生成式AI则是AI的最新分支。

大数据工作依赖人工来定义规则并使用统计模型,而AI是机器能自己学、产生结果。今天,如果把塞德的方法升级,用机器学习在海量数据上自动建模、加入图像识别(自动分析步态视频)或预测模型,那就算AI的范畴。