文章来源:【渐构】万字科普GPT4为何会颠覆现有工作流

一、GPT的底层原理「单字接龙」

「单字接龙」的意思就是给予任意长的上文来生成下一个字。在回答长文章的时候,我们可以通过将下一个字和之前的内容组合成新的上文放入训练模型之中就可以生成一段文字了……

例如在给到「我」的时候,它会生成「是」

1、如何训练

单字接龙的问题在于模型的投喂内容,当你说出上一句的时候,因为投喂内容的模型不同,可能会生成不一样的结果。

好比A被投喂的是歌词,B投喂的内容是脏话。当你的上一句是「我是」的时候,A的下一句可能就是「一只小小鸟」,B的结果可能就是「笨蛋」

所以,为了能生成一个合适的结果,我们需要训练ChatGPT的模型,通过投喂「学习材料」来做「单字接龙」来训练模型和调整模型。当用户给出学习材料上文的时候,通过之前学习的学习材料来回答出下文。

例如,当我们想把《登鹳雀楼》作为「学习材料」来训练ChatGPT时,就不断调整「它的模型」,使得:
给它「“白”」,它能生成「“日”」
给它「“白日”」,它能生成「“依”」
给它「“白日依”」,它能生成「“山”」…
一直到,给它「“白日依山尽,黄河入海流。欲穷千里目,更上一层”」,它能生成「“楼”」。没学习前,它原本会胡乱生成,但学习后就可以在看到“白日依山尽”时,生成“黄河入海流”了。

但是,一个上文可能会有不同的下文来回答,在面对这个问题的时候,他用的是「生成概率分布」的方式来解决。通过投喂「学习材料」的数量,让ChatGPT根据概率来生成结果。这也是ChatGPT每次回答内容不一样的原因。

如果要让ChatGPT来回答问题,只有将问题和答案作为一段文字当成「学习材料」,之后让ChatGPT来做单字接龙即可,在未来问到了问题上文的时候,ChatGPT可以回答出下文。

2、优点:通用

我们不能通过投喂所有的问题与回答结果作为「学习材料」,因为人类的提问方式有很多种,一个问题可以有多种方式来提问。

例如:
“白日依山尽的下一句?”
“白日依山尽的后续内容是?”
“告诉我白日依山尽的后续”

单字接龙的目的不是仅仅通过搜索以往的数据库来回答问题,而是「找到规律」通过规律来回答答案。这样做的目的不仅仅是可以回答不同方式提问的问题(通用规律),也可以在遇见新的问题时,可以通过之前的问题组合在一起来写出新的回答(泛化)。

3、缺点:混淆、胡编、不能直接操作等

混淆:人类在学习的新的知识的时候也会出现「混淆」的情况,ChatGPT亦是如此,如果遇见了「实际不同原理却相同」的情况下,可能会出现混淆的情况。

胡编:当现实中不存在一个东西,但是正好又符合「学习到的规律」,ChatGPT可能会出现对不存在的东西进行「合乎规律的混和捏造」。

不能直接操作:ChatGPT只是基于之前学习的内容训练出来的模型,我们不能直接修改这个模型。我们只能通过投喂数据来调整和修改模型。例如我们不能通过修改人类的大脑来删除之前学过的确定的知识。

隐患:我们只能通过投喂数据来调整模型,不能评估回答的正确性,只能通过「提问」来评判。在关键场合可能会出现安全问题。

效率低:如果有新的数据,又要投喂新的数据来调整模型。

依赖数据:ChatGPT高度依赖学习材料,只有提供大量的材料时,才有可能会回答出正确的答案。并且,「学习材料」需要足够优质,才能培养出优秀的结果。

二、如何训练出ChatGPT

ChatGPT通过了「文字接龙」的方式来生成答案,人类用了更加科学合理的方式学习并且出现了令人震惊的「变化」。

1、开卷有益「预训练」

人类表达同一种东西可以用不同的表达方式,如果仅仅通过「查询」的方式是不可以的,需要通过投喂更多的「学习资料」让机器学会「语义关系」和「语法规律」。

GPT 中的“G”代表“生成(Generative)”,“T”代表“Transformer”一种模型结构,而“P”(Pre-training)代表的就是“开卷有益”这一步,专业名称叫“预训练”。

如果让ChatGPT变的更强,需要更多的「学习资料」,学习资料越多,模型的能力就会变得更强。

版本学习材料数量参数
GPT-15GB1亿多个
GPT-240GB15亿
GPT-345TB1750亿

在更多数据量的情况下,ChatGPT可以轻松学会了解决一些问题,并且能给出更加高质量的答案。

2、模板规范

在训练了大量的数据之后,ChatGPT无所不能。但是当人们问道违法违规的问题的时候,ChatGPT还是会傻乎乎的回答提问者的问题,会造成不安全的隐患。所以需要通过投喂「学习资料」纠正他的回答的答案;或者,当你提问问题的时候,可能回答的方式的不同,答案可能无法被正确的理解。这时就需要通过投喂「符合人类规范的回答」来纠正上面的问题。

1.道德底线

答不知道:当提问的问题里面包含最新的新闻,由于没有及时的当作材料作为训练,ChatGPT需要回答「不知道」,而不是胡编乱造。

指出错误:当提问者的问题是个错误的问题时,ChatGPT需要指出错误的原因,而不是续写。

回答原因:当回答一个问题时,不仅仅需要提供答案,还要提供可以寻找的原因,为什么会这样来回答这个问题。

法律底线:当人们提问的问题是违法的问题时,ChatGPT需要禁止回答,而不是直接回答。

为什么不提前提供「优秀对话范例」?
一方面,「优质对话范例」数量有限,所能提供的语言多样性不足,可能难以让模型学到广泛适用的语言规律,也无法涉猎各个领域。另一方面,「优质对话范例」都需要人工专门标注,价格不菲。

当投喂过大量资料后投喂优质的回答范例的方式,一方面不仅节约了成本(优质的资料很贵),而且还能纠正一些隐藏的问题。此外,投喂优秀的回答范例的时候,还能帮助ChatGPT更多的地方……

2.训练结果

我们就可以将任务以对话的形式来交给ChatGPT,我们可以以「要求」+「应答」的方式将内容喂给ChatGPT。在经过模板规范的超大模型后,ChatGPT还掌握了「“理解”指令要求的能力」和「“理解”例子要求的能力」。

指令要求:可以将用户的抽象描述,给出处理结果

举例要求:可以通过用户给的若干个具体的例子,来处理新的内容

分治效应:当ChatGPT无法答对一个具体的问题的时候,可以让ChatGPT分步思考,通过一步步连续的推理来答对问题,而且回答正确的可能性大幅提升。

规模效应:在单字接龙模式的时候并没有察觉出「“理解”指令」「“理解”例子」「思维链」能力,但是在超大的语言模型中,却突然展现。

3、创意引导

在模板训练的阶段还是有不足的地方,可能ChatGPT的回答过于模板化,容易限制其创造力。我们不需要过于模板化的回答,希望ChatGPT提供超越模板,符合人类对话模式和价值观的创新性回答。

在创意引导的阶段,我们直接提问,让它自由回答。如果回答得好就给予奖励,回答的不好就降低奖励,通过人类评分来训练模型。

4、小结

  • 人类通过了「开卷有益」的阶段让ChatGPT来学习知识,使ChatGPT拥有了回答问题的能力。
  • 人们通过了「模板规范」的阶段让ChatGPT变成了懂得人类语言规律的模型
  • 「创意引导」阶段使ChatGPT可以做出了创新性的回答

三、如何应对新的工具的产生

工具无法取代人,但是会用工具的人会替代不会用工具的人

  • 克服工具抵触:历史的车轮无法阻挡,抵触新工具只会让我们更晚接触新的工具,更晚获得工具带来的优势。
  • 克服学习抵触:做好终生学习的准备,摆脱应试教育的负面影响。
  • 重塑学习方法:学会主动的寻找知识,完成对学习能力的重塑。

四、个人总结

好家伙,我竟然认真的看完了这个视频了,ChatGPT的本质是非常简单的,但是当数据量大的时候,就会「量变引起质变」变成了一个可以辅助人类的有用的工具。之前对AI绘画十分的感兴趣,但是我发现,对我用处最大的还是ChatGPT,因为我可以通过使用它来获取知识,完成一些简单却很表面的东西。

个人看好了这个技术,但是对这个技术还是要预防的。巨大的MediaWiki因为编写者的众多,但是夹带的私货还是太多了,我要做的就是鉴别信息的真伪,提升处理信息的一个能力。