你也可以读懂“专业论文”

1、最近我想深入学习一下大模型的原理,于是决定读一读几篇关键的论文,选了这些:

– Transformer:Attention Is All You Need

– GPT-2 论文:Language Models are Unsupervised Multitask Learners

– 理解”让AI思考”的技巧:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

– 双向”理解模型:BERT: Pre-training of Deep Bidirectional Transformers

– 等等……

哈哈,一看这些名字是不是有点吓人?但其实,现在任何人都可以读懂这些论文,只要你真的想读懂。各种 AI 工具有一千种方法可以教会你。说真的,我这次都读懂了。

2、所以我在群里留了一个小作业,要求是:

– 通过AI学习这篇论文;

– 了解下关键技术 Transformer 在大模型中到底解决了什么问题;

– 写一篇小短文,分享一下自己的收获,无论是使用AI上的收获,或者对大模型有什么新的理解,对 Prompt 提示词有什么新的理解等;

3、不知道有多少人真的做了这次练习。但我想说:每个人都值得做一做这个作业。首先,更理解 AI 的原理,肯定能用得更好;其次,这是一次难得的机会:试着用 AI 去学习一份本来“很难啃”的材料。如果你能学懂这些论文,以后再读什么论文、再啃什么大部头书籍,也不会那么怕了。

4、学习的时候,我问了 AI 一些问题,比如:

– 论文的 Abstract,能不能翻成大白话?

– 这篇论文到底讲了什么?

– 假设我是小学生,你能给我讲讲吗?

– 这些内容对我使用 AI 有什么帮助?

– ……

5、那关于 Attention Is All You Need 这篇论文,我学到了什么呢?

首先,Transformer 最初是为了解决机器翻译问题而提出的。但后来大家发现,Transformer 架构不仅能处理翻译任务,本质上它能理解和生成文本,所以可以让它去阅读各种文本,从而学会预测“下一个词”,这也是为什么 Transformer 成为如今大模型的核心架构。所以我现在能理解:为啥大模型在翻译任务上表现那么强,因为它的底层结构就是为翻译而生的。

其次,大模型的核心其实就是“预测下一个词”。而触发它开始预测的,就是我们输入的 Prompt 提示词。Prompt 依然非常关键:你可以不用一次性把提示词写完整,但问题越具体、越清晰、有明确边界,它给出的答案就越靠谱。

最后,由于是“预测词”而不是“真正计算”,所以它在处理数学题时会犯错,因为它并没有真的执行运算,只是在根据训练文本里学到的“统计模式”做猜测。所以,如果你真想它做对数学题,最好的方法是让它写一段 Python 脚本,用脚本来执行计算。

6、我真正掌握了一种能力:用 AI 把抽象复杂的知识,翻译成自己能听懂的语言。这种能力一旦练熟,就会极大增强我的学习信心,因为以后不管遇到什么难懂的东西,都可以先请 AI 用“小学生版本”讲一遍,再慢慢往上加深难度。

7、又回到最重要的问题:既然我现在真的可以读懂“专业论文”了,那我的“好奇心”在哪里?

Leave a comment

您的邮箱地址不会被公开。 必填项已用 * 标注