Mọi thứ bạn cần biết về mô hình OpenAI mới nhất

Thứ ba - 24/09/2024 22:25

Mọi thứ bạn cần biết về mô hình OpenAI mới nhất

OpenAI đã ra mắt mô hình ngôn ngữ lớn (LLM) đầu tiên trong dòng sản phẩm được mong đợi từ lâu của mình, trước đây được gọi là Strawberry.

Mô hình GPT-5 được mong đợi từ lâu của OpenAI đã được phát hành - và nó được gọi là OpenAI o1.

Nếu bạn muốn tìm hiểu thêm về các phiên bản o1-preview và o1-mini, bạn có thể xem tổng quan về mô hình o1 .

GPT-5 là gì?

OpenAI o1 là dòng mô hình ngôn ngữ lớn mới nhất được phát hành bởi OpenAI vào ngày 12 tháng 9 năm 2024, hiện bao gồm hai mô hình: o1-preview và o1-mini.

Sự khác biệt lớn nhất giữa o1 và các mô hình trước đây của công ty là khả năng lập luận nâng cao. Mặc dù chưa được phát hành đầy đủ, nhưng các phiên bản preview và mini đã vượt trội so với GPT-4o trong các bài kiểm tra toán học, khoa học và lập trình.

Mô hình mới là mô hình đầu tiên trong loại của nó, có khả năng lập luận trong thời gian thực.

Khả năng lập luận của nó có ý nghĩa gì đối với người dùng? "Nó thực sự tốt, tốt hơn nhiều," một Giám đốc điều hành có quyền truy cập sớm cho biết.

Ngày phát hành GPT-5 là khi nào?

LLM mới nhất của OpenAI đã được phát hành cho công chúng vào ngày 12 tháng 9 năm 2024. Phiên bản phát hành bao gồm các mô hình o1-preview và o1-mini.

Cho đến khi phát hành, các dự đoán rất đa dạng, được ước tính bởi người dùng và nhà báo là sớm nhất là mùa hè năm 2024 đến muộn nhất là năm 2026.

GPT-5 thông minh như thế nào?

OpenAI đã giới thiệu một danh sách các điểm chuẩn STEM thể hiện khả năng lập luận của o1, bao gồm:

Hiệu suất tương tự như sinh viên Tiến sĩ trong các bài kiểm tra điểm chuẩn về vật lý, hóa học và sinh học.
Xếp hạng trong top 500 sinh viên trong vòng loại Hoa Kỳ cho Olympic Toán học Hoa Kỳ.
Xếp hạng ở vị trí thứ 89 trong Codeforces, một bài kiểm tra lập trình cạnh tranh.

Bạn có thể đọc thêm về khả năng lập luận của o1 trong bản phát hành nghiên cứu của OpenAI.

Dự án Strawberry

OpenAI o1 trước đây có tên mã là Strawberry, với một sự huyền bí và hấp dẫn lớn. "Cách thức hoạt động của Strawberry là một bí mật được giữ kín ngay cả trong OpenAI," một nguồn tin ẩn danh chia sẻ với Reuters .

Phiên bản nhỏ hơn của AI mới này đã được ra mắt vào ngày 12 tháng 9 năm 2024 như một phần của bản cập nhật cho ChatGPT. Phiên bản lớn hơn có khả năng được OpenAI sử dụng để tạo dữ liệu đào tạo cho các LLM của mình, có khả năng thay thế nhu cầu sử dụng một lượng lớn dữ liệu thực tế.

Một cuộc họp nội bộ của OpenAI vào ngày 9 tháng 7 đã bao gồm một bản demo về những gì có thể là Dự án Strawberry, và được cho là thể hiện các kỹ năng lập luận giống như con người.

Sự khác biệt giữa GPT-4 và GPT-5 là gì?

Giám đốc điều hành của OpenAI, Sam Altman, tin rằng thế giới mới chỉ mới khai thác bề mặt của AI. Tại Hội nghị thượng đỉnh Chính phủ thế giới vào tháng 1 năm 2024, Altman đã so sánh các mô hình hiện tại từ OpenAI với những ngày đầu của điện thoại di động:

"Công nghệ hiện tại mà chúng ta có giống như chiếc điện thoại di động đầu tiên với màn hình đen trắng chỉ hiển thị được những con số đó ... nó không làm được gì nhiều ... Và vào thời điểm đó, nó có vẻ tuyệt vời. Và sau đó, chúng ta đã mất ... nhiều thập kỷ từ đó để có được những chiếc iPhone mà chúng ta có ngày nay ... Chúng ta đang ở giai đoạn chiếc điện thoại di động gần như vô dụng này."

Mặc dù sẽ mất thời gian để chuyển từ phiên bản điện thoại nắp gập của GPT sang phiên bản iPhone, nhưng mô hình o1 đưa chúng ta gần hơn một bước.

1) Khả năng lập luận được nâng cao

Ở trung tâm của trí thông minh chung của nó là khả năng lập luận mới của o1. "Có lẽ những lĩnh vực tiến bộ quan trọng nhất sẽ xoay quanh khả năng lập luận," Altman đã chia sẻ với Gates. "Hiện tại, GPT-4 chỉ có thể lập luận theo những cách rất hạn chế."

Lập luận rất khó. Ngay cả đối với con người. Và OpenAI o1 là mô hình đầu tiên tuyên bố nó.

Không thiếu người dùng đăng tải những lỗi GPT-4 của họ trên Reddit và Medium, từ những lời chế giễu tập thể về khả năng giải quyết vấn đề của nó, đến những lời giải thích chính thức về khả năng lập luận hạn chế của nó.

2) Quy ước đặt tên mới

Mặc dù tên của nó không phải là điều thú vị nhất về LLM mới của OpenAI, nhưng nó là một sự thay đổi có ý nghĩa.

OpenAI o1 là mô hình đầu tiên từ bỏ biệt danh 'GPT', và đó là bởi vì công ty tuyên bố nó là giai đoạn đầu tiên của một 'mô hình lập luận' hoàn toàn mới, trong khi các mô hình cũ là một phần của 'mô hình đào tạo trước'.

Mô hình mới dành thời gian lập luận trong thời gian thực, thay vì dựa vào dữ liệu đào tạo trước của nó.

Lập trình trò chơi điện tử với OpenAI o1

3) Thời gian chờ đợi lâu hơn

Lập luận trong thời gian thực mất nhiều thời gian hơn so với tham khảo dữ liệu đào tạo và tạo phản hồi. Nếu bạn đặt câu hỏi cho OpenAI o1-preview so với các mô hình khác, bạn sẽ phải chờ lâu hơn đáng kể.

Tuy nhiên, với khả năng thuê ngoài lập luận, đó là một cái giá nhỏ phải trả. Tốc độ của các mô hình o1 có khả năng sẽ được cải thiện khi các mô hình tiếp theo trong dòng sản phẩm được phát hành.

4) Cửa sổ ngữ cảnh giống hệt nhau

Mặc dù nhiều người dự đoán cửa sổ ngữ cảnh sẽ tăng lên từ GPT-4 sang mô hình tiếp theo, nhưng dòng o1 hiện tại vẫn giữ nguyên cửa sổ ngữ cảnh của GPT-4o là 128.000.

Cửa sổ ngữ cảnh thể hiện số lượng token mà một mô hình có thể xử lý cùng một lúc. Cửa sổ ngữ cảnh lớn hơn cho phép mô hình hấp thụ nhiều thông tin hơn từ văn bản đầu vào, dẫn đến độ chính xác cao hơn trong câu trả lời của nó.

Một trong những lỗi của GPT-4 là khả năng xử lý lượng lớn văn bản tương đối hạn chế. Ví dụ, GPT-4 Turbo và GPT-4o có cửa sổ ngữ cảnh là 128.000 token. Nhưng mô hình Gemini của Google có cửa sổ ngữ cảnh lên đến 1 triệu token.

Hiện tại, nếu bạn chỉ quan tâm đến một mô hình ngôn ngữ lớn có thể hấp thụ lượng thông tin lớn, thì các LLM của OpenAI có thể không phải là lựa chọn hàng đầu của bạn.

66abf6ad7c0b7ff8d5579f71 66abf5286c60fe55e678f9b7 finalcontextwindowcomparison

So sánh trực quan về cửa sổ ngữ cảnh của GPT-4 Turbo là 128.000 token so với cửa sổ ngữ cảnh của Gemini của Google là 1 triệu token.

GPT-5 sử dụng dữ liệu đào tạo nào?

Nếu có bất kỳ sự tính toán nào đối với OpenAI trong hành trình leo lên đỉnh cao của ngành, đó là loạt vụ kiện về việc đào tạo hoàn chỉnh của các mô hình.

Các mô hình GPT được đào tạo trên các bộ dữ liệu khổng lồ được lấy từ internet, phần lớn trong số đó có bản quyền. Việc sử dụng trái phép dữ liệu này đã dẫn đến những lời phàn nàn và hành động pháp lý rộng rãi: một vụ kiện từ The New York Times, một vụ kiện từ một loạt các cơ quan thông tấn của Hoa Kỳ, và các tuyên bố rằng quá trình đào tạo mô hình vi phạm Quy định chung về bảo vệ dữ liệu của EU.

Một thẩm phán California đã bác bỏ một trong những vụ kiện bản quyền của OpenAI được đệ trình bởi một nhóm nhà văn, bao gồm những người nổi tiếng Sarah Silverman và Ta-Nehisi Coates. Hiện chưa có dấu hiệu cho thấy OpenAI và công ty sẽ bị cản trở đáng kể bởi những lời phàn nàn này khi họ tiếp tục thử nghiệm.

Mô hình mới nhất đã được đào tạo trên sự kết hợp của dữ liệu công khai và dữ liệu được mua từ các công ty. OpenAI đã tìm kiếm nhiều bộ dữ liệu đa dạng hơn để đào tạo mô hình tốt hơn.

Cũng có khả năng o1 đã được sử dụng để tạo bộ dữ liệu để đào tạo thêm cho mô hình. OpenAI giải thích rằng Strawberry sẽ được sử dụng để đào tạo các LLM trong tương lai.

GPT-5 có giá bao nhiêu?

Các mô hình OpenAI o1 mới có thể sử dụng miễn phí trên ChatGPT, nhưng với những giới hạn nghiêm ngặt trong thời gian hiện tại.

Đối với việc sử dụng API, mô hình OpenAI o1-preview có giá cho mỗi 1 triệu token đầu vào và cho mỗi 1 triệu token đầu ra.

Mô hình o1-mini có giá cho mỗi 1 triệu token đầu vào và cho mỗi 1 triệu token đầu ra, khiến nó trở thành một mô hình dễ tiếp cận hơn cho sử dụng hàng ngày.

Tuy nhiên, những mô hình này tốn kém hơn các lựa chọn trước đây của OpenAI. Mô hình GPT-4o có giá cho mỗi 1 triệu token đầu vào và cho mỗi 1 triệu token đầu ra. GPT-4o mini có giá {link}.150 cho mỗi 1 triệu token đầu vào và {link}.6 cho mỗi 1 triệu token đầu ra.

Những thông tin chi tiết trước khi phát hành từ OpenAI

Trước khi ra mắt o1, các giám đốc điều hành và người trong cuộc của OpenAI đã ngày càng tiết lộ những thông tin chi tiết về mô hình thế hệ tiếp theo. Dưới đây là một dấu vết về những gì công ty đã tuyên bố trước khi phát hành:

Giám đốc điều hành của OpenAI Nhật Bản đã thông báo về ngày phát hành năm 2024, cũng như các đối tác giữa sản phẩm mới và Apple, Spotify và Coca-Cola.
Giám đốc điều hành Sam Altman đã tuyên bố rằng mô hình tiếp theo sẽ có khả năng xử lý email và chi tiết lịch, và nó sẽ có thể tùy chỉnh hơn.
Giám đốc công nghệ Mira Murati đã giải thích trong một cuộc phỏng vấn với Dartmouth Engineering rằng GPT-3 có trí thông minh của một đứa trẻ mới biết đi, GPT-4 giống với một học sinh trung học thông minh, và OpenAI o1 có trí thông minh cấp Tiến sĩ.
Giám đốc điều hành AI của Microsoft, Mustafa Suleyman, đã chia sẻ rằng phải đến GPT-6 trong hai năm nữa, các mô hình mới có thể 'hành động' trong các môi trường mới.
Sự thận trọng là tối quan trọng: Giám đốc điều hành Sam Altman đã thận trọng về ngày phát hành của mô hình o1, giải thích rằng OpenAI đã "có rất nhiều điều quan trọng khác cần phát hành trước tiên." Ông tuyên bố công ty sẽ phát hành mô hình chỉ khi họ tự tin rằng họ có thể làm điều đó một cách an toàn và có trách nhiệm.
Altman đã đùa rằng GPT-5 sẽ khiến GPT-4 trông "hơi đáng xấu hổ" khi so sánh, trong cuộc phỏng vấn với Stanford của ông.
Viện An toàn AI Hoa Kỳ đã nhận được quyền truy cập sớm vào mô hình tiếp theo của OpenAI, để hai tổ chức có thể "thúc đẩy khoa học đánh giá AI."
Nó sẽ có bộ dữ liệu mở rộng. GPT-5 đã được đào tạo trên sự kết hợp của dữ liệu công khai và dữ liệu được mua từ các công ty. OpenAI đã tìm kiếm nhiều bộ dữ liệu đa dạng hơn để đào tạo mô hình tốt hơn.

Tương lai của ChatGPT

Thế hệ tiếp theo của các mô hình ngôn ngữ lớn sẽ cách mạng hóa cách chúng ta tương tác với AI trong cuộc sống hàng ngày. Tại hội nghị công nghệ của Bloomberg, OpenAI COO Brad Lightcap đã ám chỉ về cách công ty dự định cách mạng hóa tương tác giữa người và máy tính, đưa GPT từ một LLM sang một mô hình có khả năng giống như tác nhân.

"Liệu sẽ có một kỹ sư lời nhắc nào đó vào năm 2026?" Lightcap nói. "Bạn không cần phải kỹ sư lời nhắc cho bạn bè của mình."

Một mô hình có khả năng và được cá nhân hóa hơn với nhiều khả năng đa phương thức hơn hứa hẹn điều mà Altman và OpenAI mong đợi: điều không thể tưởng tượng nổi. GPT-5 được mong đợi sẽ là một bước tiến gần hơn.

Tùy chỉnh tăng cường

GPT-4 thường được sử dụng như một công cụ phù hợp với tất cả mọi người. Nhưng các lần lặp lại trong tương lai sẽ trở nên cá nhân hóa hơn. Trên podcast của Gates, Altman đã nhắc lại rằng khả năng tùy chỉnh và cá nhân hóa sẽ là chìa khóa cho các mô hình OpenAI trong tương lai. "Mọi người muốn những điều rất khác nhau từ GPT-4: phong cách khác nhau, các tập hợp giả định khác nhau."

OpenAI đã giới thiệu Custom GPT, cho phép người dùng cá nhân hóa một GPT cho một nhiệm vụ cụ thể, từ dạy chơi một trò chơi trên bàn đến giúp trẻ em hoàn thành bài tập về nhà. Mặc dù việc tùy chỉnh không phải là trọng tâm của OpenAI o1, nhưng dự kiến nó sẽ trở thành một xu hướng chính trong tương lai.

Trong khi đó, bạn có thể cá nhân hóa một chatbot AI được trang bị sức mạnh của GPT-4o miễn phí.

Đa phương thức hơn

Đa phương thức đã là trọng tâm của một vài lần lặp lại gần đây của GPT. OpenAI không có dấu hiệu chậm lại.

OpenAI đã giới thiệu GPT-4o vào tháng 5 năm 2024, mang đến cho nó các kỹ năng về văn bản, giọng nói và thị giác được nâng cao. Nó cách xa GPT-4 Turbo, nó có khả năng tham gia vào các cuộc trò chuyện tự nhiên, phân tích đầu vào hình ảnh, mô tả hình ảnh và xử lý âm thanh phức tạp.

Những thay đổi trong đa phương thức tạo ra những thay đổi lớn trong cách chúng ta tương tác với GPT. Luồng trò chuyện tự nhiên - khi mô hình có thể giải thích chính xác các thay đổi về ngữ điệu và theo dõi các mẫu lời nói giống như con người, giống như GPT-4o - là một bước nhảy vọt trong xử lý ngôn ngữ tự nhiên của AI.

Một khung hình từ một đoạn clip 60 giây do Sora tạo ra, miêu tả một người phụ nữ đang đi bộ ở Tokyo.

Và nó không chỉ là giọng nói và văn bản được nâng cao. OpenAI không ngần ngại trêu chọc mô hình văn bản thành video sắp ra mắt của họ là Sora. Mô hình AI được phát triển để bắt chước các chuyển động camera phức tạp và tạo ra các nhân vật và phong cảnh chi tiết trong các clip lên đến 60 giây.

Nếu lịch sử đa phương thức của họ không đủ, hãy nghe lời Giám đốc điều hành của OpenAI. Altman đã xác nhận với Gates rằng xử lý video, cùng với lập luận, là ưu tiên hàng đầu cho các mô hình GPT trong tương lai.

Giới thiệu Sora - mô hình văn bản thành video của OpenAI

Những tin mới hơn

Những tin cũ hơn

Mọi thứ bạn cần biết về mô hình OpenAI mới nhất