摘要

我决定做一次尝试:把 AI 当作严厉的「技术合伙人」。用苏格拉底式追问,从零学习了 MCM 2023 Problem C (Wordle 预测),


一、为什么选这道题?

C题偏数据型,我觉得三天高强度的比赛是一个非常 fancy 的事情。但对于我来说,我确实非常缺乏所需的数学和机器学习知识,所以我先要求 AI 以提问的方式带我完整地体验一遍数学建模竞赛。


二、我做了什么

我先在 GitHub 上寻找到了 qianliq/2023comapC,并且阅读了仓库中提供的比赛 PDF 和数据,以及该仓库对于比赛题目的思考。接着我与 AI 进行了学习,让 AI 以苏格拉底式启发我学习并完成整个比赛的过程。

经过学习之后,我再次阅读了比赛赛题,并在 Kaggle 上开始了自己的数据建模与编程。下面是我的思考过程。

题目总览

Wordle 作为一个猜词游戏,给定一个 5 个字母的单词,通过最多 6 次机会猜出这个单词是什么。每猜对一个字母会给予反馈,题目给出了相关数据。

数据字段说明

字段含义
日期给定 Wordle 谜题的日期,格式为 mm-dd-yyyy(月-日-年)
比赛编号一个从 2022 年 1 月 7 日开始,记录 Wordle 谜题的索引
猜测答案猜测答案的总数量
困难模式困难模式猜题数量
分布数据分几次猜出答案的百分比

比赛提出的问题

问题一: 使用一个模型解释数据 #4 变化的规律并预测 2023 年 3 月 1 日总数量,并回答你认为什么因素影响了数据 #6 的分布。

问题二: 用一个模型预测 2023 年 3 月 1 日给出题目 EERIE 时数据 #6 的分布状况,并且回答你对于这个模型的预测是否认同。

问题三: 用一个模型来分类给定的题目的难度,判断 EERIE 的难度,讨论这个分类模型的准确性。

问题四: 描述你发现的其他有意思的数据特征。

Kaggle 作品

我将每个问题的详细解答整理完成了我的 Kaggle 文件发布:查看 Kaggle 作品

MCM Wordle 建模分析

数据分析与模型预测结果展示


三、论文写作与批判性反思

事实上,我发现了自己更多问题:

  • 我没有写论文的经验
  • 论文中需要补充多个图表与中间思考的过程
  • 我没有用算法和建模完成整个论文的血肉填充
  • 但是用了基本的算法完成了各个问题的骨干

我下次再进行建模比赛模拟时会着重注意这方面的问题。


四、结语

这次基本完成了美赛所有问题的解答,但是因为没有完成论文的写作稍作遗憾。这次模拟让我明白,数学建模不仅仅是写代码,更是:

  • 定义问题,理解数据,提前规划好论文的写作过程
  • 学术表达,用图表和论文包装产品