Contact

BERT- Bước đột phá mới trong công nghệ xử lý ngôn ngữ tự nhiên của Google

Month 06,  06/2019

Blog của Google AI (https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html), đã công bố bài viết giới thiệu về BERT một nghiên cứu mới mang tính đột phá của Google trong lĩnh vực xử lý ngôn ngữ tự nhiên.

BERT là viết tắt của Bidirectional Encoder Representations from Transformers được hiểu là một mô hình học sẵn hay còn gọi là pre-train model, học ra các vector đại diện theo ngữ cảnh 2 chiều của từ (từ trái qua phải và từ phải qua trái), được sử dụng để transfer sang các bài toán khác trong lĩnh vực xử lý ngôn ngữ tự nhiên. Trong bài báo, các nhà nghiên cứu mô tả chi tiết một kỹ thuật mới có tên Masked LM (MLM) cho phép huấn luyện hai chiều trong các mô hình mà trước đây không thể.

BERT đã thu được kết quả tối ưu mới nhất cho 11 nhiệm vụ xử lý ngôn ngữ tự nhiên, bao gồm việc đẩy kết quả của nhiệm vụ GLUE benchmark lên 80.4%(cải tiến thêm 7.6%) và SQuAD v.1.1 với F1 score trên tập test đạt 93.2%(cải tiến thêm 1.5%), tốt hơn con người 2%.

BERT hoạt động thế nào:

- Kiến trúc mô hình BERT là một bộ mã hóa Transformer hai chiều (bidirectional Transformer encoder). Việc sử dụng Transformer không có gì đáng ngạc nhiên vì đây là một xu hướng gần đây do tính hiệu quả và hiệu suất vượt trội của huấn luyện Transformers trong việc phát hiện các phụ thuộc với khoảng cách xa (long-distance dependencies) so với kiến trúc Recurrent neural network. Trong khi đó, bộ mã hóa hai chiều (bidirectional encoder) là một tính năng nổi bật giúp phân biệt BERT với OpenAI GPT (sử dụng từ trái sang phải Transformer) và ELMo (kết hợp giữa huấn luyện từ trái sang phải và một mạng riêng rẽ phải sang trái LSTM).

 - BERT là một mô hình khổng lồ, với 24 khối Transformer, 1024 lớp ẩn và 340 triệu tham số.

 - Mô hình này được huấn luyện trước với 40 vòng lặp trên tập huấn luyện 3,3 tỷ từ, bao gồm BooksCorpus (800 triệu từ) và Wikipedia tiếng Anh (2,5 tỷ từ).

- Mô hình chạy trên 16 TPU pods để huấn luyện.

2. Kết luận:

Trong quá trình huấn luyện trước, các nhà nghiên cứu đã thực hiện một phương pháp liên quan đến việc che giấu ngẫu nhiên một tỷ lệ phần trăm các input tokens (15 %) để  huấn luyện một deep bidirectional representation. Họ gọi phương pháp này là Mô hình ngôn ngữ đeo mặt nạ Masked Language Model (MLM).

- Một mô hình ngôn ngữ được huấn luyện trước không thể hiểu mối quan hệ giữa các câu, điều này rất quan trọng đối với các nhiệm vụ ngôn ngữ như trả lời câu hỏi và suy luận ngôn ngữ tự nhiên. Do đó, các nhà nghiên cứu đã huấn luyện trước nhiệm vụ nhị phân hóa dự đoán câu tiếp theo cái có thể được tạo ra từ bất cứ tập huấn luyện riêng rẽ

- Mô hình tinh chỉnh cho các bộ dữ liệu khác nhau cải thiện độ chính xác trên tập GLUE lên 80,4% (cải thiện 7,6%), độ chính xác trên MultiNLI lên 86,7% (cải thiện 5,6%), cải thiện F1 score cho tập dữ liệu hỏi trả lời SQuAD v1.1 đến 93.2 (cải thiện 1.5%), v.v...

 

Nguồn: https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html.

Công nghệ VHT và thế giới

sign up email