-
Notifications
You must be signed in to change notification settings - Fork 1
/
SITCON 2022 R1 40 分鐘簡單聊聊 NLP [_qmNe1LRjiM].srt
4209 lines (3156 loc) · 70.1 KB
/
SITCON 2022 R1 40 分鐘簡單聊聊 NLP [_qmNe1LRjiM].srt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
1
00:00:00,000 --> 00:00:10,000
大家好,我是這場議程的講者,我叫 Andy Chiang
2
00:00:10,000 --> 00:00:15,000
我今天要帶來的主題就是 40 分鐘簡單聊聊 NLP
3
00:00:15,000 --> 00:00:20,000
首先先自我介紹一下,我叫 Andy Chiang, 本名是江尚軒
4
00:00:20,000 --> 00:00:24,000
我現在就讀國立中興大學資工系大三升大四
5
00:00:24,000 --> 00:00:28,000
同時也在中興大學的 NLP 實驗室擔任研究助理
6
00:00:28,000 --> 00:00:33,000
今年暑假有去工研院的資料服務與智慧決策部擔任實習生
7
00:00:33,000 --> 00:00:39,000
我主要的研究領域有網頁前後端、機器學習和自然語言處理
8
00:00:39,000 --> 00:00:44,000
在 SITCON 官網的自我介紹裡面就有提到了
9
00:00:44,000 --> 00:00:48,000
我自己已經參加過 SITCON 兩年了,所以今年我就開始想
10
00:00:48,000 --> 00:00:52,000
我已經當聽眾兩年了,今年還要繼續當下去嗎?
11
00:00:52,000 --> 00:00:54,000
還是就來當當看講者好了?
12
00:00:54,000 --> 00:00:57,000
所以我就跑去投稿,然後很幸運的就上了
13
00:00:57,000 --> 00:01:00,000
這就是為什麼我現在站在這裡
14
00:01:00,000 --> 00:01:04,000
在這裡也是想要鼓勵大家不要害怕嘗試
15
00:01:04,000 --> 00:01:08,000
說不定明年在台上的就是你了
16
00:01:08,000 --> 00:01:13,000
在開始之前,今天的投影片連結在左邊這裡
17
00:01:13,000 --> 00:01:18,000
大家可以掃 QR Code, 待會邊聽的時候可以邊參考
18
00:01:18,000 --> 00:01:21,000
另外右邊這裡是議程的資訊
19
00:01:21,000 --> 00:01:25,000
上面有議程的共筆
20
00:01:25,000 --> 00:01:29,000
大家可以在聽簡報的時候在上面做筆記
21
00:01:29,000 --> 00:01:31,000
也有 slido 的連結
22
00:01:31,000 --> 00:01:35,000
如果議程中有任何問題也可以上去提問
23
00:01:35,000 --> 00:01:39,000
最後會保留大約五分鐘來進行 QA
24
00:01:39,000 --> 00:01:43,000
我會把畫面停在這個畫面
25
00:01:43,000 --> 00:01:46,000
一段時間讓大家可以掃 QR Code
26
00:01:46,000 --> 00:01:49,000
也順便趁這個時候調查一下
27
00:01:49,000 --> 00:01:55,000
可以請有聽過 NLP 的聽眾舉一下手嗎
28
00:01:55,000 --> 00:01:57,000
好 可以放下了
29
00:01:57,000 --> 00:01:59,000
大概一半左右
30
00:01:59,000 --> 00:02:01,000
沒有聽過的也沒有關係
31
00:02:01,000 --> 00:02:05,000
因為待會基本上就是講 NLP 的科普
32
00:02:05,000 --> 00:02:09,000
就把它當作聽聽故事就可以了
33
00:02:09,000 --> 00:02:13,000
那我們就開始今天的議程
34
00:02:13,000 --> 00:02:15,000
首先目錄我分成了六個章節
35
00:02:15,000 --> 00:02:19,000
分別就是用 what why when 跟 how 來做區分
36
00:02:19,000 --> 00:02:22,000
最後是 reference 跟 summary
37
00:02:22,000 --> 00:02:26,000
這場議程主要是想讓大家對 NLP 產生興趣
38
00:02:26,000 --> 00:02:29,000
並且知道有什麼工具可以使用
39
00:02:29,000 --> 00:02:32,000
還有看滿滿的梗圖
40
00:02:32,000 --> 00:02:36,000
首先就先來 NLP 的簡介
41
00:02:36,000 --> 00:02:38,000
你知道 NLP 是什麼嗎
42
00:02:38,000 --> 00:02:40,000
雖然我不是 NLP 專家
43
00:02:40,000 --> 00:02:42,000
但這聽起來很讚吧
44
00:02:42,000 --> 00:02:47,000
NLP 全名就是 Natural Language Processing
45
00:02:47,000 --> 00:02:49,000
簡稱就是 NLP
46
00:02:49,000 --> 00:02:52,000
中文就叫自然語言處理
47
00:02:52,000 --> 00:02:54,000
也可以把它想像成是一種
48
00:02:54,000 --> 00:02:57,000
電腦科學加上語言學的一門學問
49
00:02:57,000 --> 00:03:01,000
它也是人工智慧底下的一門分支
50
00:03:01,000 --> 00:03:03,000
簡單用一句話形容
51
00:03:03,000 --> 00:03:06,000
NLP 就是探討如何讓電腦理解
52
00:03:06,000 --> 00:03:09,000
甚至去運用我們的自然語言
53
00:03:09,000 --> 00:03:11,000
這邊就有一個詞需要解釋了
54
00:03:11,000 --> 00:03:14,000
就是自然語言
55
00:03:14,000 --> 00:03:16,000
自然語言就是
56
00:03:16,000 --> 00:03:19,000
人類為了溝通所創造出來的語言
57
00:03:19,000 --> 00:03:21,000
形式可以是文字
58
00:03:21,000 --> 00:03:22,000
也可以是語音
59
00:03:22,000 --> 00:03:24,000
甚至是符號
60
00:03:24,000 --> 00:03:28,000
這些通通都可以叫做自然語言
61
00:03:28,000 --> 00:03:30,000
所以這邊就會有分兩種
62
00:03:30,000 --> 00:03:32,000
一種是人類的語言
63
00:03:32,000 --> 00:03:34,000
就是給人來看的
64
00:03:34,000 --> 00:03:36,000
另外一個是數值的資料
65
00:03:36,000 --> 00:03:40,000
就是給機器看的
66
00:03:40,000 --> 00:03:42,000
NLP 又可以細分成兩種
67
00:03:42,000 --> 00:03:44,000
一種是你把人類的語言
68
00:03:44,000 --> 00:03:45,000
轉成數值的資料
69
00:03:45,000 --> 00:03:48,000
這種我們叫做自然語言理解
70
00:03:48,000 --> 00:03:50,000
有簡稱 NLU
71
00:03:50,000 --> 00:03:51,000
換句話說就是讓機器
72
00:03:51,000 --> 00:03:54,000
可以讀懂人類的語言
73
00:03:54,000 --> 00:03:56,000
反過來將數值資料
74
00:03:56,000 --> 00:03:57,000
轉成人類的語言
75
00:03:57,000 --> 00:03:59,000
這個我們就叫自然語言生成
76
00:03:59,000 --> 00:04:01,000
有簡稱 NLG
77
00:04:01,000 --> 00:04:02,000
換句話說就是讓機器
78
00:04:02,000 --> 00:04:05,000
可以創造出人類的語言
79
00:04:05,000 --> 00:04:09,000
自然語言理解就細分成這兩種
80
00:04:09,000 --> 00:04:12,000
接下來介紹 NLP 的實際應用
81
00:04:12,000 --> 00:04:15,000
首先第一個是 email 的篩選器
82
00:04:15,000 --> 00:04:17,000
像是可以根據你的信件內容
83
00:04:17,000 --> 00:04:19,000
來過濾出垃圾郵件
84
00:04:19,000 --> 00:04:20,000
或者像 Gmail
85
00:04:20,000 --> 00:04:22,000
會幫你把信件分成主要
86
00:04:22,000 --> 00:04:24,000
然後社交跟促銷
87
00:04:24,000 --> 00:04:28,000
讓你的收件夾看起來比較整齊
88
00:04:28,000 --> 00:04:30,000
還有像是情感分析
89
00:04:30,000 --> 00:04:33,000
就是公司可以去社群媒體上面
90
00:04:33,000 --> 00:04:35,000
蒐集他們客戶對於自家產品的
91
00:04:35,000 --> 00:04:37,000
一些留言或是貼文
92
00:04:37,000 --> 00:04:39,000
然後分析他是正面還是負面的
93
00:04:39,000 --> 00:04:43,000
然後來即時改善他們的行銷手法
94
00:04:43,000 --> 00:04:45,000
再來智能助理
95
00:04:45,000 --> 00:04:48,000
比較常聽到的像是 Google Assistant
96
00:04:48,000 --> 00:04:49,000
Apple 的 Siri
97
00:04:49,000 --> 00:04:52,000
或是 Amazon 的 Alexa 這些
98
00:04:52,000 --> 00:04:54,000
這些已經漸漸成為
99
00:04:54,000 --> 00:04:56,000
我們日常生活的一部分
100
00:04:56,000 --> 00:04:57,000
除了可以幫我們處理
101
00:04:57,000 --> 00:04:59,000
各種生活瑣事之外
102
00:04:59,000 --> 00:05:01,000
無聊的時候也可以跟他聊天
103
00:05:01,000 --> 00:05:03,000
或講笑話之類的
104
00:05:03,000 --> 00:05:06,000
因為我們 NLP 實際的案例實在太多了
105
00:05:06,000 --> 00:05:08,000
所以我們這邊就只舉這三個
106
00:05:08,000 --> 00:05:11,000
來當作例子
107
00:05:11,000 --> 00:05:14,000
接下來來介紹 NLP 的發展史
108
00:05:14,000 --> 00:05:16,000
首先在 1950 年代
109
00:05:16,000 --> 00:05:18,000
那個時候還沒有機器學習的概念
110
00:05:18,000 --> 00:05:21,000
所以當時候只能透過語言學的角度
111
00:05:21,000 --> 00:05:23,000
來分析出語言的規則
112
00:05:23,000 --> 00:05:25,000
再把它寫成電腦程式
113
00:05:25,000 --> 00:05:27,000
但是這種方法就一定很差
114
00:05:27,000 --> 00:05:29,000
因為語言有太多例外了
115
00:05:29,000 --> 00:05:32,000
相信學過高中英文的人就知道
116
00:05:32,000 --> 00:05:36,000
就是英文的動詞不規則三態變化
117
00:05:36,000 --> 00:05:38,000
就讓人非常頭痛
118
00:05:38,000 --> 00:05:41,000
所以有時候連人自己都搞不清楚了
119
00:05:41,000 --> 00:05:44,000
那更何況是給電腦呢
120
00:05:44,000 --> 00:05:47,000
所以因此是一直到 1980 年代
121
00:05:47,000 --> 00:05:48,000
NLP 才開始
122
00:05:48,000 --> 00:05:50,000
就是帶入了機器學習的概念之後
123
00:05:50,000 --> 00:05:54,000
那才開始有比較蓬勃的發展
124
00:05:54,000 --> 00:05:57,000
那這個一開始的做法
125
00:05:57,000 --> 00:05:59,000
就是會收集很多的文本
126
00:05:59,000 --> 00:06:01,000
那我們會把它稱作語料庫
127
00:06:01,000 --> 00:06:04,000
那接著會用這些語料庫來訓練模型
128
00:06:04,000 --> 00:06:08,000
然後來讓它找出這些單字之間的關聯
129
00:06:08,000 --> 00:06:13,000
那這種做法比起你用人工規則就更有彈性
130
00:06:13,000 --> 00:06:16,000
那也能處理比較超出範圍的問題
131
00:06:16,000 --> 00:06:21,000
那接下來就介紹幾個比較有名的機器學習的模型
132
00:06:21,000 --> 00:06:24,000
首先第一個要介紹的是 Word2Vec
133
00:06:24,000 --> 00:06:27,000
那 Word2Vec 輸入是一個單字
134
00:06:27,000 --> 00:06:29,000
輸出就是代表這個單字的向量
135
00:06:29,000 --> 00:06:35,000
所以可以看到每一個單字都會對應到一個唯一的向量
136
00:06:35,000 --> 00:06:40,000
那訓練過程簡單來講就是透過它的上下文
137
00:06:40,000 --> 00:06:43,000
來學習到單字之間的關係
138
00:06:43,000 --> 00:06:44,000
比方說這邊有一句
139
00:06:44,000 --> 00:06:46,000
我明天要搭火車去台北
140
00:06:46,000 --> 00:06:47,000
跟另外一句
141
00:06:47,000 --> 00:06:49,000
我明天要搭飛機去台北
142
00:06:49,000 --> 00:06:53,000
那這裡因為火車跟飛機它的前後文都一樣
143
00:06:53,000 --> 00:06:56,000
所以當模型看過很多這樣的句子之後
144
00:06:56,000 --> 00:06:59,000
就會知道火車跟飛機是兩個很相近的詞
145
00:06:59,000 --> 00:07:02,000
然後就會在向量的空間上面
146
00:07:02,000 --> 00:07:04,000
給它們兩個很相似的向量
147
00:07:04,000 --> 00:07:05,000
就像這張圖
148
00:07:05,000 --> 00:07:07,000
那比較不相關的單字
149
00:07:07,000 --> 00:07:08,000
比方說貓咪
150
00:07:08,000 --> 00:07:13,000
就會得到一個差距比較遠的向量
151
00:07:13,000 --> 00:07:15,000
那 Word2Vec 簡單來講就是這樣
152
00:07:15,000 --> 00:07:17,000
那雖然聽起來很棒
153
00:07:17,000 --> 00:07:20,000
但是它還是存在著一些缺點
154
00:07:20,000 --> 00:07:23,000
首先是它沒有辦法處理一字多義的問題
155
00:07:23,000 --> 00:07:24,000
因為剛才有講到
156
00:07:24,000 --> 00:07:27,000
Word2Vec 一個單字就是對應到一個唯一的向量
157
00:07:27,000 --> 00:07:30,000
所以當你一個詞有兩個意思的時候
158
00:07:30,000 --> 00:07:33,000
這個 Word2Vec 是沒有辦法解決的
159
00:07:33,000 --> 00:07:34,000
那還有就是
160
00:07:34,000 --> 00:07:36,000
它不考慮到詞的先後順序
161
00:07:36,000 --> 00:07:38,000
比方說下面這個例子
162
00:07:38,000 --> 00:07:40,000
我借小明一百元
163
00:07:40,000 --> 00:07:42,000
跟小明借我一百元
164
00:07:42,000 --> 00:07:44,000
這兩個句子很明顯是不同的
165
00:07:44,000 --> 00:07:46,000
但是對 Word2Vec 來說
166
00:07:46,000 --> 00:07:48,000
因為它的前後文都相同
167
00:07:48,000 --> 00:07:49,000
所以對 Word2Vec 來說
168
00:07:49,000 --> 00:07:52,000
這兩個句子是相同的
169
00:07:52,000 --> 00:07:55,000
那這個問題就要用 RNN 來解決
170
00:07:55,000 --> 00:07:58,000
那 RNN 的話就像我們閱讀的習慣一樣
171
00:07:58,000 --> 00:07:59,000
是從左到右
172
00:07:59,000 --> 00:08:02,000
一個一個字這樣子讀過來
173
00:08:02,000 --> 00:08:04,000
那這樣就可以根據你前文讀到的內容
174
00:08:04,000 --> 00:08:09,000
而對後文產生不一樣的結果
175
00:08:09,000 --> 00:08:11,000
那再來就到了 2018 年
176
00:08:11,000 --> 00:08:15,000
Google 提出了 BERT 這個語言域訓練模型之後
177
00:08:15,000 --> 00:08:18,000
就開始對 NLP 帶來革命性的突破
178
00:08:18,000 --> 00:08:21,000
那為什麼要放下面這張圖呢
179
00:08:21,000 --> 00:08:24,000
其實黃色這個角色就叫做 BERT
180
00:08:24,000 --> 00:08:27,000
他是芝麻街裡面的一個角色
181
00:08:27,000 --> 00:08:30,000
有趣的是之後很多 NLP 的模型
182
00:08:30,000 --> 00:08:34,000
都會以芝麻街角色的名字來命名
183
00:08:34,000 --> 00:08:38,000
像是有什麼 Ernie 或是 Elmo 這些
184
00:08:38,000 --> 00:08:41,000
有些很明顯甚至是硬湊出來的
185
00:08:41,000 --> 00:08:45,000
就很硬要不知道在說什麼
186
00:08:45,000 --> 00:08:47,000
那在介紹 BERT 之前呢
187
00:08:47,000 --> 00:08:49,000
還要先知道這個 Transformer
188
00:08:49,000 --> 00:08:54,000
那 Transformer 是近年來相當熱門的一個深度學習的模型
189
00:08:54,000 --> 00:08:56,000
那它是使用到那個
190
00:08:56,000 --> 00:08:59,000
Self-Attention 這一個機制
191
00:08:59,000 --> 00:09:05,000
那它的架構實際上分成 Encoder 跟 Decoder 兩個部分
192
00:09:05,000 --> 00:09:08,000
而 BERT 呢其實就是它 Encoder 的部分
193
00:09:08,000 --> 00:09:12,000
也就是紅色框框圈起來的這一塊
194
00:09:12,000 --> 00:09:14,000
那關於 Transformer 的話
195
00:09:14,000 --> 00:09:17,000
這邊因為時間不夠所以不會再多說
196
00:09:17,000 --> 00:09:19,000
想要了解的話就回家 Google 一下
197
00:09:19,000 --> 00:09:22,000
就會有很多資源了
198
00:09:22,000 --> 00:09:26,000
那我們來講一下 Google 怎麼訓練 BERT 這樣一個模型
199
00:09:26,000 --> 00:09:29,000
首先他們收集了很大量的語料庫
200
00:09:29,000 --> 00:09:33,000
這邊是用 [Book Opus] 加上 English 的 Wikipedia
201
00:09:33,000 --> 00:09:35,000
總共有 33 億個字
202
00:09:35,000 --> 00:09:39,000
然後透過非監督式的方式來做 Pre-Train
203
00:09:39,000 --> 00:09:42,000
然後就拿這個 Pre-Train 好的模型
204
00:09:42,000 --> 00:09:45,000
去針對特定的下游任務來做 Fine-tune
205
00:09:45,000 --> 00:09:49,000
結果就是都比傳統的模型來得好
206
00:09:49,000 --> 00:09:53,000
所以當年是橫掃了整個 NLP 任務的排行榜
207
00:09:53,000 --> 00:09:56,000
就是所向無敵這樣
208
00:09:56,000 --> 00:09:59,000
那這個概念一開始聽到的時候可能會無法理解
209
00:09:59,000 --> 00:10:00,000
為什麼會這樣
210
00:10:00,000 --> 00:10:04,000
那這個概念其實就很像我們學中文一樣
211
00:10:04,000 --> 00:10:07,000
因為我們從小到大都在接觸中文
212
00:10:07,000 --> 00:10:11,000
所以我們耳濡目染之下對中文就有基本的預感
213
00:10:11,000 --> 00:10:14,000
所以這個時候如果再叫我們去學一些特定的任務
214
00:10:14,000 --> 00:10:17,000
比方說接龍或照樣造句這類的
215
00:10:17,000 --> 00:10:21,000
那我們比起可能從來沒有碰過中文的外國人來說
216
00:10:21,000 --> 00:10:24,000
我們學起來就會輕鬆很多
217
00:10:24,000 --> 00:10:26,000
所以我們在做 pre-train 的時候
218
00:10:26,000 --> 00:10:29,000
其實就是讓模型先學會一個基本的語感
219
00:10:29,000 --> 00:10:31,000
然後對他做 fine-tune 的時候
220
00:10:31,000 --> 00:10:35,000
就是讓他去學習一些特定的任務
221
00:10:35,000 --> 00:10:37,000
那有了這個概念之後
222
00:10:37,000 --> 00:10:39,000
但除非你是那種很大的企業
223
00:10:39,000 --> 00:10:42,000
不然你想要自己 pre-train 一個語言訓練模型
224
00:10:42,000 --> 00:10:44,000
根本是天方夜譚
225
00:10:44,000 --> 00:10:46,000
那這邊就有一個例子
226
00:10:46,000 --> 00:10:50,000
比方說你想要訓練一個 1.1 億參數的 BERT-based 模型的話
227
00:10:50,000 --> 00:10:53,000
那你要花 16 個 TPU, 然後要跑 4 天
228
00:10:53,000 --> 00:10:58,000
而且你還要先收集到 33 億個字的預料庫才行
229
00:10:58,000 --> 00:11:01,000
所以這對一般的人來說是非常困難的
230
00:11:01,000 --> 00:11:06,000
那幸好 BERT 的作者就有開源他們 pre-train 好的模型
231
00:11:06,000 --> 00:11:09,000
那我們就可以直接站在巨人的肩膀上
232
00:11:09,000 --> 00:11:12,000
執行下的任務變得既輕鬆又有效
233
00:11:12,000 --> 00:11:15,000
那這邊也稍微補充一下
234
00:11:15,000 --> 00:11:18,000
就是你把這種 pre-train 好的模型開源出來
235
00:11:18,000 --> 00:11:20,000
其實也是有助於環境的
236
00:11:20,000 --> 00:11:23,000
因為就有研究指出你訓練一個 BERT
237
00:11:23,000 --> 00:11:25,000
那因為它會耗電嘛
238
00:11:25,000 --> 00:11:28,000
所以它產生出來的碳足跡是 0.63 噸
239
00:11:28,000 --> 00:11:35,000
就相當於你的飛機從紐約飛往舊金山來回一趟的碳排量
240
00:11:35,000 --> 00:11:38,000
所以當你把這個 pre-train 好的模型開源出來
241
00:11:38,000 --> 00:11:40,000
那大家就不用重複的一直 pre-train
242
00:11:40,000 --> 00:11:44,000
那就可以減少這個碳的排量
243
00:11:44,000 --> 00:11:50,000
那也因此就近年來 NLP 的研究現況就像這張圖
244
00:11:50,000 --> 00:11:52,000
就是 NLP 的研究者呢
245
00:11:52,000 --> 00:11:54,000
大家都跑去研究 BERT 了
246
00:11:54,000 --> 00:11:58,000
那新的那些論文也幾乎都是以 BERT 為主
247
00:11:58,000 --> 00:12:00,000
用傳統模型的人就少很多
248
00:12:00,000 --> 00:12:05,000
那就可見 NLP 的有這麼強大
249
00:12:05,000 --> 00:12:08,000
那自從 Google 提出了 BERT 之後
250
00:12:08,000 --> 00:12:11,000
那其他的那些大企業跟組織也就跟著推出了