Trải nghiệm tính năng chuyển ảnh thành video với Veo 3 trên Google Gemini

Google vừa giới thiệu tính năng mới trên Gemini, cho phép người dùng biến ảnh thành video thông qua mô hình Veo 3. Giờ đây, bên cạnh việc tạo video từ câu lệnh, người dùng có thể tải lên ảnh của mình để tạo thành một video ngắn dài 8 giây. Điểm nổi bật của Veo 3 là khả năng lồng ghép các âm thanh như giọng nói, tiếng động vật và âm thanh môi trường, giúp video trở nên sống động hơn. Hãy cùng tìm hiểu chi tiết về cách hoạt động và những điều thú vị mà tính năng này mang lại.

Chuyển ảnh thành video bằng Veo 3

Tính năng biến ảnh thành video của Google Gemini được xây dựng dựa trên mô hình tạo video Veo 3. Veo 3 lần đầu tiên ra mắt tại sự kiện Google I/O hồi tháng 5 và đã gây ấn tượng mạnh. Mô hình này có thể tạo ra những đoạn video chân thực từ mô tả bằng văn bản, video được tạo ra sẽ có cả âm thanh, nhạc nền và hiệu ứng âm thanh môi trường. Giờ đây, tính năng chuyển ảnh thành video đã được tích hợp thẳng vào Gemini.

Điểm đặc biệt của tính năng này là Gemini có thể hiểu sâu về ngữ cảnh, đối tượng và chiều sâu trong ảnh. Gemini không chỉ thêm chuyển động mà còn tạo ra các hiệu ứng tinh tế như nước gợn sóng, hơi nước bốc lên hay mây trôi trên bầu trời. Mọi thứ diễn ra rất tự nhiên và mượt mà, giúp video có chất lượng như phim điện ảnh, rất khó để phân biệt với video thật. Hiện tại người dùng tài khoản Gemini Pro tại Việt Nam đã có thể sử dụng được Veo 3 nhưng với giới hạn tạo video trong 1 ngày.

Để dùng tính năng biến ảnh thành video trong Gemini, bạn cần làm theo các bước đơn giản sau:

Mở Gemini: Mở ứng dụng Gemini hoặc vào gemini.google.com.
Chọn công cụ Video: Trong ô nhập lệnh, bấm vào “công cụ” và chọn “Video”.
Tải ảnh lên: Tải lên bức ảnh bạn muốn biến thành video.
Mô tả chuyển động và âm thanh: Nhập một đoạn văn bản chi tiết mô tả chuyển động bạn muốn thấy trong video, cùng với hướng dẫn về âm thanh (lời nói, hiệu ứng âm thanh, âm thanh môi trường).

Sau khi nhận yêu cầu, Veo 3 sẽ bắt đầu xử lý và tạo video. Quá trình này có thể mất khoảng 1 đến 3 phút, tùy thuộc vào độ phức tạp của yêu cầu. Video hoàn chỉnh sẽ có độ phân giải 720p, định dạng ngang 16:9 và được lưu dưới dạng tệp MP4.

Google rất coi trọng sự an toàn và minh bạch khi tạo ra nội dung AI. Mọi video do Gemini tạo ra bằng Veo 3 đều có hai loại hình mờ: một hình mờ rõ ràng cho biết video được tạo bằng AI và SynthID, một hình mờ kỹ thuật số vô hình giúp nhận diện nguồn gốc AI của video. Ngoài ra, Google cũng thường xuyên kiểm tra (red teaming) để chủ động tìm và sửa lỗi tiềm ẩn, đồng thời liên tục phát triển và áp dụng các chính sách chống lại nội dung không an toàn.

Trải nghiệm tạo video thực tế

Dưới đây là các ví dụ từ trải nghiệm của tôi:

Ví dụ 1: Ô tô chay trên đường

Một chiếc Porsche 911 cổ điển màu xanh nhạt đang chạy trên con đường núi.

Câu lệnh: “Một chiếc Porsche 911 cổ điển màu xanh nhạt đời 1970 đang chạy trên con đường núi quanh co vào một ngày nắng đẹp. Camera di chuyển theo xe từ phía trước bên trái khi xe tiến lại gần, giữ nhịp với tốc độ xe. Sau đó, khi xe tăng tốc, camera lia theo hướng xe chạy khi nó vụt qua, giữ cùng hướng di chuyển với xe. Thêm tiếng động cơ xe.”

Video tạo ra rất chân thực, các chi tiết của chiếc xe và bối cảnh đồi núi xung quanh được chuyển hóa rất mượt mà. Âm thanh động cơ được thêm vào cũng rất hợp lý, tạo cảm giác như đang xem một đoạn video quảng cáo xe.

Ví dụ 2: Mèo đuổi chuột

Một bức ảnh chú mèo đang ngồi trên bàn

Câu lệnh: “Con mèo nhìn thấy một chú chuột chạy trên bàn và con mèo bắt đầu đuổi theo. Thêm âm thanh tiếng mèo và tiếng chuột kêu”

Video tạo ra rất chân thức, chuyển động của con mèo khi nhảy và đuổi theo chú chuột rất tự nhiên. Âm thanh được thêm vào cũng rất chân thực, giống như đang xem một video được quay trực tiếp bằng camera.

Ví dụ 3: Thợ lặn chụp ảnh dưới biển

Một bức ảnh chụp rặng san hô dưới ở dưới biển

Câu lệnh: “Một người thợ lặn mặc bộ đồ lặn đen bơi từ ngoài vào, cầm theo máy ảnh dưới nước. Anh ấy tiếp cận rạn san hô một cách nhẹ nhàng và dừng lại để chụp ảnh những cụm san hô. Các bong bóng khí nổi lên từ bình dưỡng khí. Âm thanh gồm tiếng nước và bong bóng.”

Người thợ lặn được tái hiện rất đúng với yêu cầu của câu lệnh, đặc biệt là phần màu sắc khá ăn nhập với ảnh gốc, tạo cảm giác đồng nhất và chân thực hơn.

Ví dụ 4: Cầu thủ bóng bầu dục sút bóng

Một bức ảnh chụp quả bóng bầu dục trên sân cỏ

Câu lệnh: “Một cầu thủ bóng bầu dục bước đến và sút mạnh vào quả bóng.”

Veo 3 vẫn chưa thể hiện tốt các hành động mạnh như sút bóng, khiến cú sút trông nhẹ và thiếu chân thực. Ngoài ra, màu sắc của quả bóng bầu dục sau khi bay lên cũng bị thay đổi so với màu gốc.

Ví dụ 5: Người chơi golf

Ảnh chụp một người đàn ông đang chơi golf

Câu lệnh: “Người đàn ông đang thực hiện cú đánh golf, với chuyển động mượt mà của gậy và bóng bay lên. Thêm âm thanh tiếng gậy chạm bóng và tiếng gió nhẹ”

Động tác vung gậy được thực hiện khá chính xác tuy nhiên quỹ đạo bay của quả bóng vẫn chưa sát với thực tế.

Tính năng tạo video từ ảnh của Veo 3 trong Gemini hoạt động rất ấn tượng và đầy tiềm năng. Dù hiện tại còn một vài hạn chế về chi phí và số lượng video, nhưng nó vẫn mở ra nhiều cách để tạo ra những nội dung sáng tạo, thu hút. Hy vọng trong tương lai, Google sẽ tiếp tục cải tiến Veo 3 để mang đến trải nghiệm tốt hơn cho người dùng.