GPT-4参数最新爆料！1.76万亿参数，8个2200亿MoE模型，PyTorch创始人深信不疑全球热资讯

2023-06-23 06:28:46 来源 : 清一色财经

GPT-4远不止1万亿，甚至，还是8个2200亿参数组成的混合专家模型。

(资料图片)

家人们，GPT-4的参数可能还真不止1万亿！

近来，美国知名骇客George Hotz在接受采访时透露，GPT-4由8个220B模型组成。

这么算来，8 x 220B = 1.76万亿。

就连PyTorch的创建者Soumith Chintala对此也深信不疑。

GPT-4：8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。

如果真是这样的话，GPT-4的训练可能更加有效。

1.76万亿「八头蛇」？

在GPT-4还未放出之前，GPT-3有1750亿个参数，一众网友猜测GPT-4岂不是要逆天，最起码1万亿。

而George在接受Latent Space的采访时，对GPT4架构的描述着实让人震惊。

他的部分原话如下：

GPT-4每个head都有2200亿参数，是一个8路的混合模型。所以，混合模型是当你想不出办法的时候才会做的。OpenAI训练了相同模型8次，他们有一些小技巧。他们实际上进行了16次推断。

他特别强调，OpenAI做了8个混合专家模型，任何人可以花8倍资金都能训练出来。

也就是说，人们能够训练更小模型更长时间，微调后，就能找到这些技巧。

OpenAI曾经发表类似关于让计算量不变的情况下，让训练更好的算法，比较像BatchNorm和NoBatchNorm。

网友热评

就像George所说，这是8个较小的模型，如果有足够资金训练8个混合模型，这是一个微不足道的解决方案。

所以，GPT-4是GPT-3的10倍，而1月份的所有小圈圈大圈圈的meme实际上是……真的？！

网友得知秘诀后，打算自己也要训练一个LLaMA集合体与GPT-4竞争。

还有网友称，这有点像LLM-Blender。

我早就听到了稍微可信的传言，说GPT-4将是MoE，但从未得到证实。MoE和大约1万亿个参数不会让我感到惊讶，这听起来极为合理。

还有网友进行深度分析：

老实说，我预计这将是人工智能架构的下一阶段。我们已经看到特定任务模型在任务中的表现比一般模型好得多。

因此，将许多特定任务模型组合在一起将是下一个合乎逻辑的步骤。这几乎使升级系统变得容易得多，一次只能处理一个模型。

话虽如此，OpenAI以一种未来可能会，也可能不会的方式做到了这一点。显然，组合系统可能会有更多的小模型，而不是几个更大的模型。

如果这是真的，这是否意味着每个220B模型也有32K的上下文长度？

网友下了功夫，给它命名为「九头蛇」。

关键词：

最近更新

当前热议!湖南举办纪念屈原逝世2300周年系列活动原创音乐剧《九歌》首演 2023-06-23 06:16:46

国铁集团：今日全国铁路预计发送旅客1620万人次_每日快看 2023-06-23 06:04:07

将端午安全祝福送给船员 2023-06-23 05:57:31

全球球精选！南宁本地产火龙果即将大量上市 2023-06-23 05:59:54

周末，微风徐徐，潇洒放手，泪眼朦胧，步入婚姻，再见亦是陌生人当前观点 2023-06-23 06:09:46

环球视讯！华为回应日媒炒作：我们专利不是用来赚钱的 2023-06-23 06:03:01

全球新资讯：2023年高考成绩预计6月23日可查，查询方法 2023-06-23 06:03:04

环球微资讯！救人、找马、捕蛇……这个派出所做好为民暖心事 2023-06-23 06:04:24

繁忙工地粽飘香，建设者暖心过端午 2023-06-23 05:57:03

痛风，尿酸高能吃猪肉吗? 2023-06-23 05:44:18

精彩推送

当前焦点!陕西省城镇独生子女父母补助金增加啦！ 2023-06-23 06:27:25

世界焦点！丝绸路上新机遇——山东企业抱团进疆招商推介会举办 2023-06-23 06:26:37

富都物业拟转让旗下23项物业予方圆生活服务，以抵消欠款-全球聚焦 2023-06-23 06:26:31

全球新动态：堕落的 2023-06-23 06:26:18

600054股票分析 2023-06-23 06:25:44

真的值！16G内存跌破150元_环球微速讯 2023-06-23 06:25:25

学信网可查学历有_学信网可查学历 2023-06-23 06:25:13

当前关注：批捕阶段介入侦查合法吗？_全球热点 2023-06-23 06:25:12

天天热点评！温州最有名的酒店是什么酒店呢 2023-06-23 06:25:01

“两江两村”体育赛事塑造乡村经济新范本 2023-06-23 06:24:57

抓获犯罪嫌疑人76人！山东青岛警方破获特大“帮信罪”案|天天热头条 2023-06-23 06:24:28

綦江：邀社区居民“粽香情浓话端午” 当前快讯 2023-06-23 06:24:20

智能自动化的兴起：数字时代的人工智能、机器人和制造业 2023-06-23 06:23:46

莱州老旧小区改造最新情况 2023-06-23 06:23:32

甲骨文遇上端午节粽叶笔墨满飘香 2023-06-23 06:23:15

亿纬锂能进军新领域！|关注 2023-06-23 06:22:49

用S参数法设计放大器和振荡器_关于用S参数法设计放大器和振荡器介绍_当前看点 2023-06-23 06:22:46

全球今日报丨湘潭市十六届人大常委会召开第24次主任会议 2023-06-23 06:22:33

节日消费升温、出行热度高涨数字里看端午假期当前简讯 2023-06-23 06:22:28

世界快讯:晋安法院集中发布一批非法吸收公众存款犯罪典型案例 2023-06-23 06:22:26

温州第一附属医院预约了还能退吗_温州第一附属医院预约 2023-06-23 06:22:24

思语app怎么弄钱进去思语app转账方法介绍简讯 2023-06-23 06:22:05

第七届“双拥杯”驻沪部队厨艺交流赛顺利举行 2023-06-23 06:21:54

广西北流举办炉渣综合利用产业装备展销会 3天成交近19亿元 2023-06-23 06:21:41

全球关注：新疆兵团：曲子戏百年传唱老调新唱展新魅力 2023-06-23 06:21:13

不为良相便为良医典故出处_不为良相便为良医典故 2023-06-23 06:21:07

实时：华纳兄弟据悉正在与潜在买家进行洽谈以出售价值5亿美元的电影与音乐版权 2023-06-23 06:21:01

环球时讯：最便宜的理想SUV曝光，售价30万内又将成爆款？ 2023-06-23 06:21:00

今日聚焦!高质量发展调研行丨福建建瓯：绿色竹山渐成幸福“靠山” 2023-06-23 06:20:54

环球观点：应急管理部派工作组赴事故现场指导救援处置 2023-06-23 06:20:39

湖人二次试训大四全能型后场大将，他有机会抢下一份双向合同？_当前热议 2023-06-23 06:20:38

土地热线 | 保利摇号获广州楼面价第二高地块建发落子南昌、泉州|今日快讯 2023-06-23 06:20:38

ChatGPT美国上车中国座舱产业链利润增速大幅下滑|前沿资讯 2023-06-23 06:20:34

世界快消息！商务社交场景一站解决号百公司来电名片个人版打造商务社交新姿势 2023-06-23 06:20:31

但斌、陈宇隔空“互怼”，竟与这一板块有关 2023-06-23 06:20:27

国家疾控局发布高温热浪公众健康防护指南世界热点 2023-06-23 06:20:11

人社部：各地要组建速裁庭，优先受理农民工工资争议案 2023-06-23 06:20:01

焦点资讯：多个重大工程项目加快推进实施推动经济高质量发展 2023-06-23 06:19:48

男子中近800万彩票后瞒着妻子：妻子要求分割_世界滚动 2023-06-23 06:19:37

伽师县：端午节临近伽师县市场货品充足-热资讯 2023-06-23 06:19:35

外观和动力均有升级新款吉利星瑞申报图|每日动态 2023-06-23 06:19:04

《异形：坠入黑暗》游民评测6分进去四个疯了五个 2023-06-23 06:18:56

快看点丨（高质量发展调研行）宁夏固原：让清水河水更清、岸更绿 2023-06-23 06:18:43

天天快看：璞泰来：拟以2亿元-3亿元回购股份 2023-06-23 06:18:31

北京开展旅游领域专项整治行动提示消费者抵制非法“一日游” 2023-06-23 06:18:26

2023江苏常州经济开发区社会事业局第一批教师资格认定通过和待定人员名单公示|全球快看点 2023-06-23 06:18:23

天天即时看！2022年重庆律师提供法律援助1.7万余件保障特殊群体合法权益 2023-06-23 06:18:23

当前时讯：节日坚守丨保障群众“舌尖上的安全”延庆食品安全监督不停歇 2023-06-23 06:18:21

中建二局安徽分公司荣获3项安徽省科学技术进步奖 2023-06-23 06:18:08

水葫芦药用价值有什么_每日速递 2023-06-23 06:18:04

总资产净利率计算公式_总资产净利率_当前最新 2023-06-23 06:18:01

环球速读：飞盘、露营降温，骑行却还一直火火火到“堵车” 2023-06-23 06:17:57

天天观点：基于EMP2 V3平台/采用全新设计全新DS 4将于7月13日正式上市 2023-06-23 06:17:57

环球看点！广东发布新型储能路线图助大湾区新型能源体系建设 2023-06-23 06:17:56

普京称乌军反攻停滞，泽连斯基承认不如预期快讯 2023-06-23 06:17:48

环球通讯！贾玲宣布减肥100斤，近照颜值逆天，我却笑不出来… 2023-06-23 06:17:47

2023年选秀之夜可能发生的4队交易，牵涉到湖人、勇士、快船奇才 2023-06-23 06:17:44

“最火”端午假期来临哪些地方适合出游哪些地方易中暑微头条 2023-06-23 06:17:38

连演三天！30余场国际音乐演出，点亮梧桐树下文艺夜生活 2023-06-23 06:17:38

【学思想强党性重实践建新功】省林草局：助企暖企春风行动落实落细 2023-06-23 06:17:29

面对高温“炙烤”，防晒装备越贵越好？_天天热门 2023-06-23 06:17:28

中超球队报价巴洛特利：身价1200万！有望成年度最大牌引援 2023-06-23 06:17:22

皇子装疯多年，被太监当傀儡扶上帝位，第一道圣旨却让太监懵圈了全球速看 2023-06-23 06:17:10

当前热议!湖南举办纪念屈原逝世2300周年系列活动原创音乐剧《九歌》首演 2023-06-23 06:16:46

天天观点：亿华通与河北北方学院签署产学研战略合作协议 2023-06-23 06:16:46

世界聚焦：前沿科学思想秀《未来中国》第二季将于7月7日开播 2023-06-23 06:16:39

泥地龙舟赛+水上拔河比赛沈阳举办田间趣味运动会喜迎端午 2023-06-23 06:16:20

理想，再“狂”一次？环球观速讯 2023-06-23 06:16:20

推进安置房分配圆群众“安居梦” 今日视点 2023-06-23 06:16:10

格力分布式送风技术：领先创新，不吹人的好空调|全球通讯 2023-06-23 06:16:05

9所高校对口支援新疆农业大学 2023-06-23 06:15:54

端午坚守工地海军军医大学第一附属医院军人诊疗中心项目再次取得阶段性成果 2023-06-23 06:15:53

我的世界组件怎么用（我的世界组件怎么用网易我的世界手游组件怎么用） 2023-06-23 06:15:51

天天速递！观山湖区气象服务中心将暴雨黄色预警信号升级为暴雨橙色预警信号[Ⅱ/严重] 【2023-06-20】 2023-06-23 06:15:46

热资讯！一口吞下18粒右美沙芬，他瘫在床上 2023-06-23 06:15:46

世界观察：2023全球数字经济大会将于7月4日开幕扩大国际合作新空间 2023-06-23 06:15:45

环球信息:萧煌奇方发布律师声明否认网传多年装盲人一事 2023-06-23 06:15:43

走出世界！掘金拉美2023拉美跨境电商产业带高峰论坛在乐从举行 2023-06-23 06:15:39

离岸美元兑人民币汇率盘中触及7.2 短期行情会反转吗？-世界聚看点 2023-06-23 06:15:36

孙杨否认退役期待复出 2023-06-23 06:15:18

广西天天速递 2023-06-23 06:15:10

当前聚焦：投行B. Riley：看好Sixth Street专业贷款(TSLX.US)和阿瑞斯(ARCC.US)这两只高股息防御股 2023-06-23 06:15:06

每日资讯：吃什么补肾阳(男性壮阳补肾吃什么好) 2023-06-23 06:14:58

广东龙门南昆山极危物种长梗木莲迎来开花季天天精选 2023-06-23 06:14:56

【全球速看料】猜谜、户外音乐节、夜游龙门阵……端午假期成都公园多项活动等你畅玩 2023-06-23 06:14:52

“千万工程”调研行|这座千年古村里有了天文馆——钱塘江源头开化县乡村走访记-环球关注 2023-06-23 06:14:51

暴雨橙色预警！湘南地区注意防范 2023-06-23 06:14:44

父亲给消防员儿子送粽子刚见面出警铃声就响了 2023-06-23 06:14:43

郑中设计：公司部分设计师已尝试使用AI绘画工具 2023-06-23 06:14:38

缴毒超10公斤呼和浩特铁路警方破获特大贩卖毒品案_环球热推荐 2023-06-23 06:14:26

快看点丨龙舟赛、民俗快闪......端午来黄龙溪玩点不一样的 2023-06-23 06:14:23

业界在京共论科技成果转化路径释放创新生产力|讯息 2023-06-23 06:14:11

世界快消息！生降_关于生降介绍 2023-06-23 06:14:10

每日时讯!交警提醒！出行高峰今天就到…… 2023-06-23 06:14:03

工信部印发《工业互联网专项工作组2023年工作计划》 2023-06-23 06:14:00

GPT-4参数最新爆料！1.76万亿参数，8个2200亿MoE模型，PyTorch创始人深信不疑 全球热资讯

1.76万亿「八头蛇」？

网友热评

GPT-4参数最新爆料！1.76万亿参数，8个2200亿MoE模型，PyTorch创始人深信不疑全球热资讯