Повернутися у блог

Синтетичні дані та штучний інтелект. Зв'язок нерозривний?

Почнемо разом щось  абсолютно нове!

Декілька місяців тому в нашому блозі на Medium вийшла стаття  Поговоримо про синтетичні дані? Корисність та анонімність: як знайти баланс, де ми говоримо про те, чому синтетичні дані стають безцінним інструментом для майбутнього, яке у сфері технологій наближається швидше, ніж очікувалося.

Чому ж цей інструмент справді такий важливий?

Чи є ризик захисту приватності?

Вважається, що синтетичні дані стали надзвичайно важливим інструментом у проектах ШІ, оскільки вони надають моделі машинного навчання та прогнозної аналітики без жодного ризику для захисту приватності. Чому так відбувається?

Синтетичні дані мають ті ж математичні та статистичні властивості, що і вихідні дані, і зберігають кореляції між змінними даних, так що тенденції в наборі вихідних даних також відображаються в згенерованому наборі даних. Але вони не містить інформації, яка б могла поставити під загрозу приватність. На відміну від даних, які були просто «деідентифіковані» (очищені від деталей, що ідентифікують), набори синтетичних даних є повністю окремими, і їх не можна зв'язати назад з джерелом.

Переваги синтетичних даних можуть зробити революцію в дослідженнях. Наприклад, в медицині  вони не тільки зменшують систематичну помилку, моделюючи пацієнтів із недопредставлених груп, але й дають відповідь на суперечливі результати, які часто спостерігаються в педіатричних дослідженнях та дослідженнях рідкісних захворювань через невелику кількість пацієнтів. Все це створює привабливіший і переконливий погляд на синтетичні дані, показуючи нам, як далеко ми просунулися і як далеко ми можемо зайти.

Чому синтетичні дані та ШІ нерозривно пов'язані?

У міру посилення законів про приватність використання синтетичних даних зростає. До 2024 року, за даними американської дослідницької компанії Gartner Inc., синтетичні дані становитимуть 60% усієї інформації, яка використовується для розробки проектів штучного інтелекту та аналітики.

Синтетичні дані та ШІ мають замкнутий взаємовигідний зв'язок: синтетичні дані створюються за допомогою ШІ, а моделі ШІ будуються на основі синтетичних даних.

"Ви починаєте з реального набору даних - наприклад, даних клінічного випробування - і навчаєте модель ШІ вивчати закономірності в цих даних", - говорить доктор Халед Ель Емам, канадський дослідник кафедри медичного ШІ в Університеті Канади. "Тоді ви можете генерувати нові дані з моделі ШІ".

"Синтетичні дані дають можливість інженерам і розробникам працювати над інноваціями, для яких зазвичай потрібні реальні дані, які стає все важче отримати", - каже пані Колуччі, співзасновник стартапу з Сан-Франциско, який створює синтетичні дані комп'ютерного зору для розробників, які прагнуть швидко створювати моделі ШІ для додатків, починаючи від безпеки складів та інвентаризації за допомогою роботів та закінчуючи віртуальним фітнес-коучингом.

"Наприклад, щоб створити складську систему, яка автоматично виявляє розливи, вам доведеться згодовувати машинному навчанню сотні, навіть тисячі зображень, які навчать його розпізнавати, як виглядає розлив", - каже пані Колуччі. "Ви можете або піти і сфотографувати різні види розливів - різних розмірів, форм, кольорів, текстур і при різному освітленні - або створити синтетичні зображення розливів на основі кількох зображень реального світу".

Чи замінять синтетичні дані реальні дані?

Переваги синтетичних даних багатообіцяючі. У медичних дослідженнях це покращує якість досліджень та результати, наприклад, шляхом моделювання пацієнтів із недостатньо представлених расових та соціально-економічних груп, щоб зменшити упередженість у дослідженні. Ця здатність моделювати дані може також вирішити постійну проблему при дослідженні методів лікування педіатричних та рідкісних захворювань: невеликі групи пацієнтів, які історично ускладнювали доказ того, чи нові ліки працюють.

Так, наприклад, некомерційна організація Health Cities зібрала синтетичні дані для проекту, спрямованого на запобігання опіоїдній залежності.

"У нас є близько 400 000 точок даних за сім років, які включають дані про аптеки, відвідування швидкої допомоги, діагностичні дані та адміністративні дані", - говорить генеральний директор Health Cities Рег Джозеф. «Завдяки цьому ми можемо почати вивчати звички призначення та використання, а також усілякі показники, щоб знайти закономірності, які можуть допомогти в інформуванні практик із запобігання залежності».

У Массачусетському технологічному інституті в Кембриджі, штат Массачусетс, група вчених створила платформу з відкритим вихідним кодом, щоб надати іншим організаціям доступ до програмного забезпечення для створення синтетичних даних.

За словами співзасновника Кальяна Верамачанені, головного наукового співробітника Лабораторії інформаційних систем та систем прийняття рішень Массачусетського технологічного інституту, сховище синтетичних даних, не мало недоліку у користувачах.

«Ми мали понад мільйон завантажень, - каже він. - "Наприклад, корейська митниця використовувала його, щоб визначити, чи можуть вони визначити, яких людей слід усунути для огляду..."

Проте…

На цей час синтетичні дані не замінять реальних даних. Сьогодні дослідники, які використовують синтетичні дані, щоб дійти висновку, зазвичай потім звіряють свої результати з реальними даними. Вони працюють пліч-о-пліч і продовжуватимуть робити це в найближчому майбутньому.

"Ми знаємо недостатньо - ми все ще намагаємося з'ясувати, наскільки надійні наші синтетичні дані, і ми бачимо в публікаціях, що штучному інтелекту властиві систематичні помилки", - говорить Джозеф з Health Cities.- Але майбутнє і в синтетичних даних, і в ШІ точно є”.

Читайте також на тему:

Поговоримо про синтетичні дані? Корисність та анонімність: як знайти баланс

Підписуйтесь на наші канали в соціальних мережах:

LinkedIn
Instagram
Facebook
Telegram
Twitter

Звертайтесь до нас та отримуйте консультацію: business@avitar.legal

Автори:

17.3.2023 17:15
Іконка хрестик закрити

Давайте обговоримо ваш проект

Запит успішно відправлено
Помилка відправки запиту
By clicking "Allow all" you agree to store cookies on your device to enhance website navigation, analyse usage and assist in our marketing efforts
Варіанти видів cookies

Відправити

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Дізнайтеся більше про cookies та передачу даних у нашій
Політиці файлів cookies.
Text Link
Data Protection