Kling O1 текст у відео | Генератор відео з тексту AISVIT

Коротко про модель

Мультимодальна Kling-модель для коротких 5-10 секундних кліпів і context-aware редагування, коли потрібно не просто згенерувати сцену, а керувати стилем, персонажем, камерою або вихідним відео через референси.

У яких випадках ця модель буде корисною?

Kling O1 найкраще підходить тоді, коли базового text-to-video вже недостатньо і вам потрібен вищий контроль: зберегти рух, підхопити стиль із референсів, акуратно переробити готовий футаж або втримати зовнішність персонажа між кадрами.

Для яких задач підходить найкраще

Text-to-video генерація коротких роликів, коли до промпту потрібно додати reference images, щоб стиль, герой або продукт були ближчими до задуму.
Image-to-video сценарії, де важливий конкретний перший кадр, а також м'який перехід до фінальної композиції через start image та end image.
Reference-driven генерація з відеореференсом у режимі feature, коли треба запозичити ритм камери, тип руху або загальну мову сцени без прямого копіювання футажа.
Video-to-video редагування в режимі base, коли потрібно змінити героя, оточення або стиль, але зберегти сам рух, таймінг і, за потреби, оригінальну аудіодоріжку.

Основні переваги

Одна модель покриває text-to-video, image-guided generation і reference-based video editing, тому не треба перемикатися між кількома інструментами для схожих задач.
Kling O1 сильний саме там, де важлива сталість руху: при редагуванні базового відео камера, дія й темп зазвичай зберігаються краще, ніж у звичайних ремікс-моделях.
Можна додавати кілька референсних зображень: до 7 без відео або до 4 разом із відеореференсом, що корисно для персонажів, продуктів, одягу, локацій і стилю.
Режими Standard і Pro дозволяють окремо керувати витратами: Standard зручний для ітерацій, а Pro - для більш чистого та презентабельного результату.

Які є обмеження

Модель розрахована на короткі кліпи: у text-to-video та image-to-video зазвичай доступні 5 або 10 секунд, а з відеореференсом тривалість обмежена коротким діапазоном 3-10 секунд.
У поточному AISVIT-маршруті немає окремої генерації нового аудіо. Звук можна лише зберегти з вихідного відео під час base-редагування, якщо ввімкнено keep original sound.
Параметр aspect ratio працює для чистого text-to-video, але ігнорується, коли ви стартуєте зі зображення або редагуєте базове відео, бо модель орієнтується на вхідний медіафайл.
Занадто багато референсів, надто довгі промпти або кілька складних подій в одному короткому ролику можуть послабити контроль. Це не найкраща модель для довгих сюжетних сцен або дрібного тексту в кадрі.

Як використовувати цю модель?

Найкращий підхід для Kling O1: почати з одного чіткого задуму сцени, а референси додавати лише тоді, коли кожен із них розв'язує конкретну задачу: зовнішність героя, стиль, рух камери або редагування готового відео.

Простий сценарій роботи

Напишіть промпт простою мовою: хто або що в кадрі, що відбувається, де це відбувається, який має бути стиль, як поводиться камера і що має залишитися незмінним.
Оберіть Standard для дешевших і швидших тестів або Pro, якщо вже наблизилися до фінального варіанту й хочете кращу якість.
Для text-to-video виберіть 5 або 10 секунд і форму кадру 16:9, 9:16 або 1:1. Цього зазвичай достатньо для реклами, превізу, шортсів і коротких продуктових сцен.
Завантажте start image, якщо перший кадр має точно збігатися з конкретним портретом, товаром, ілюстрацією або композицією. End image додавайте лише тоді, коли хочете привести сцену до конкретного фіналу.
Додавайте reference images, коли важлива схожість героя, продукту, стилю або локації. Без відео можна використати до 7 референсів, а разом із відеореференсом - до 4.

Які вхідні дані підтримуються

Обов'язково: текстовий промпт.
Опційно: одне start image у форматі JPG, JPEG або PNG, до 10 МБ.
Опційно: одне end image у форматі JPG, JPEG або PNG, до 10 МБ, але лише разом зі start image.
Опційно: reference images у форматі JPG, JPEG або PNG; до 7 зображень без відео або до 4 разом із відеореференсом.
Опційно: одне reference video у форматі MP4 або MOV, приблизно 3-10 секунд і до 200 МБ.

Що ви отримаєте на виході

Згенерований MP4-відеофайл.
В AISVIT у text-to-video та image-to-video результат зазвичай без нового аудіо.
У base-редагуванні можна зберегти оригінальний звук вихідного відео, якщо ввімкнено keep original sound.
Тривалість залежить від сценарію: 5 або 10 секунд для чистої генерації, короткий діапазон 3-10 секунд для feature-відеореференсу або довжина вихідного ролика для base-редагування.
Якість у AISVIT керується через режими Standard і Pro, а не через окремий ручний вибір роздільної здатності.

Інші workflow для цієї моделі

Інші моделі у режимі Текст у відео

Тарифікація в AISVIT

Standard без відеовходу: 8.4 кредити за секунду
Standard з reference/base video: 12.6 кредитів за секунду
Pro без відеовходу: 11.2 кредити за секунду
Pro з reference/base video: 16.8 кредитів за секунду