OpenAI ra mắt GPT-4o: Tạo ảnh chân thực hơn

Công NghệTechnology

March 26, 2025

admin

Share It:

Table of Content

OpenAI ra mắt GPT-4o tạo hình ảnh chân thực hơn nhờ huấn luyện thủ công

OpenAI ra mắt GPT-4o, mợt nâng cấp cải tiến hơn trong việc tạo hình ảnh. Đây là một bước tiến đột phá mới của OpenAI trong cuộc đua AI đa phương tiện. Sau hơn một năm cải tiến, mô hình này không chỉ tạo ra hình ảnh rõ nét mà còn đi kèm văn bản dễ đọc, ứng dụng tốt trong nhiều lĩnh vực từ cá nhân đến doanh nghiệp.

OpenAI Chuyển Từ DALL·E 3 Sang GPT-4o: Cú nhảy vọt về hình ảnh

GPT-4o giờ đây đã thay thế hoàn toàn DALL·E 3 làm công cụ tạo ảnh mặc định trong ChatGPT. Với khả năng xử lý cả văn bản, âm thanh, hình ảnh và video, GPT-4o được đánh giá là mô hình AI đa phương tiện tiên tiến nhưng tiết kiệm chi phí hơn so với các phiên bản trước.

Đặc biệt, tính năng tạo ảnh đã được cải tiến đáng kể nhờ sự tham gia của hơn 100 nhân viên huấn luyện con người. Những người này giúp mô hình nhận diện lỗi, từ bàn tay kỳ quặc cho đến lỗi chính tả trong ảnh có chữ.

Huấn luyện bằng phản hồi con người: Bí quyết phía sau độ “người”

Phương pháp này gọi là “học tăng cường từ phản hồi con người” (Reinforcement Learning from Human Feedback – RLHF). Theo ông Gabriel Goh, nhà nghiên cứu trưởng dự án, cách huấn luyện này giúp GPT-4o hiểu và bám sát chỉ dẫn từ con người hơn, từ đó tạo ra ảnh đúng ý, hợp ngữ cảnh hơn bao giờ hết.

“Bản thân mô hình đã thông minh sẵn, nhưng nhờ RLHF mà khả năng đó được đánh bóng, trở nên thực dụng hơn,” ông Goh chia sẻ.

Từ logo đến slide thuyết trình – tất cả đều trong tầm tay

Với bản cập nhật mới, GPT-4o giờ đây không chỉ tạo được hình ảnh có nền trong suốt – lý tưởng cho thiết kế logo hay biểu tượng – mà còn kết hợp được với văn bản rõ ràng trong cùng một hình. Đây là tính năng từng là điểm yếu của các mô hình trước.

Người dùng còn có thể tải lên hướng dẫn thiết kế thương hiệu (brand style guide) để ChatGPT tạo hình ảnh phù hợp phong cách. Theo Jackie Shannon, giám đốc sản phẩm tại OpenAI, đây là bước tiến quan trọng cho các doanh nghiệp cần hình ảnh chuyên nghiệp nhưng không có đội ngũ thiết kế riêng.

Tính thực tiễn đã rõ ràng – nhưng vẫn còn giới hạn

GoDaddy, một trong những khách hàng sử dụng GPT-4o, cho biết công nghệ này đang giúp họ “tận dụng AI để tạo nội dung nhanh chóng”, từ ảnh minh họa đến logo.

Tuy vậy, GPT-4o vẫn chưa hoàn hảo. OpenAI thừa nhận rằng trong một thử nghiệm, khi người dùng tải ảnh phòng khách có hai cửa sổ, GPT-4o chỉ vẽ lại được… một cửa sổ khi bố trí lại nội thất. Nghĩa là, trí tuệ nhân tạo vẫn có thể “bỏ quên” vài chi tiết quan trọng.

Tranh cãi đạo nhái – AI vẫn phải đi trên dây

Không thể không nhắc đến tranh cãi: nhiều họa sĩ cho rằng AI đang xâm phạm bản quyền và đe dọa sinh kế của họ. OpenAI khẳng định GPT-4o được huấn luyện từ dữ liệu công khai và dữ liệu có bản quyền từ các đối tác như Shutterstock, đồng thời áp dụng chính sách không cho phép mô phỏng phong cách nghệ sĩ còn sống.

Brad Lightcap, giám đốc điều hành OpenAI, cho biết: “Chúng tôi tôn trọng quyền của nghệ sĩ và có quy định rõ ràng để bảo vệ điều đó.”

Tags :