Toward understanding the communication in sperm whales. Jacob...
Toward understanding the communication in sperm whales
Jacob Andreas, Gašper Beguš, Michael M. Bronstein, Roee Diamant, Denley Delaney, Shane Gero, Shafi Goldwasser, David F. Gruber, Sarah de Haas, Peter Malkin, Nikolay Pavlov, Roger Payne, Giovanni Petri, Daniela Rus, Pratyusha Sharma, Dan Tchernov, Pernille Tønnesen, Antonio Torralba, Daniel Vogt, Robert J. Wood
Статья: https://www.sciencedirect.com/science/article/pii/S2589004222006642
Сайт: https://www.projectceti.org/
Познакомился тут с Томом Мастиллом, автором книги “How to speak whale” (https://www.tommustill.com/how-to-speak-whale), узнал от него про проект CETI, Cetacean Translation Initiative (https://www.projectceti.org/), я его раньше как-то пропустил. Очень зачётный проект! Название, видимо, отсылка к SETI. Цель проекта -- понять коммуникацию кашалотов. После просмотра Аватара 2 как-то особенно хорошо легло 🙂
У проекта есть программная статья от середины прошлого года (июнь 2022) с родмэпом про то, как участники хотят добиться понимания китовой коммуникации (спойлер: с помощью ML и роботов!). Эта работа может стать шаблоном для понимания других существ, потому что киты -- достаточно хороший модельный организм с развитыми нейроанатомическими признаками, высокими когнитивными способностями, социальной структурой и дискретным кодированием на основе щелчков (clicks).
Для понимания языкоподобной коммуникации надо понять несколько вещей.
1) Каковы артикуляторные и перцептивные строительные блоки, которые можно надёжно производить и распознавать? Это аналог фонетики и фонологии.
2) Каковы правила композиции этих примитивов? Это аналог морфологии и синтаксиса.
3) Каковы правила интерпретации и присвоения смысла этим блокам? Аналог семантики.
4) Может быть также важно влияние контекста на смысл, это прагматика.
В идеале хочется иметь универсальный автоматизированный data-driven toolkit, который можно применять к нечеловеческой коммуникации. Пока его нет.
Применение ML очень сильно упирается в отсутствие больших датасетов для этих задач, и вопросы сбора данных (Record), а также их процессинга (Process), например, аннотирование с добавлением ID кита, составляют отдельную большую часть проекта. Другая часть -- декодирование средствами ML и создание коммуникационной модели китов (Decode). Финальная важная часть, Encode & Playback подразумевает интерактивное взаимодействие с китами и уточнение китовой языковой модели.
Китов изучать сложно, по сравнению с земными животными сильно другая экология и среда. Так, до 1957 года вообще не знали, что кашалоты умеют производить звуки, и только в 1970-х впервые поняли, что они используют их для коммуникации. Киты путешествуют на тысячи километров, живут вероятно более ста лет, причём по сути в трёхмерной среде, часто стабильными социальными группами, подолгу заботясь о детёнышах. Социальное обучение для них вероятно важнее индивидуального или генетически обусловленного поведения. Большая часть их коммуникации, видимо, одномодальная, через акустику. В зоне, куда проникает свет, также важно зрение.
Биоакустическая система кашалота эволюционировала как сенсорный орган, используемый для эхолокации и поиска добычи. Производимые китом щелчки по структуре состоят из нескольких импульсов с мощным первым импульсом и последующими с затухающей амплитудой (получающимися благодаря реверберации начального импульса в спермацетовом органе в носу кита -- кажется, это похоже на основной тон и форманты в человеческой речи, но с антропоцентризмом надо, конечно, поосторожнее).
Кроме эхолокации, этот же орган используется и для коммуникации, она состоит из коротких пакетов щелчков (<2 секунд) с интервалами (Inter-click intervals, ICI) и выделяемыми паттернами, которые называются кодами (codas). Кода состоит из 2-40 всенаправленных кликов. У разных групп китов свои диалекты, обычно у клана есть по крайней мере 20 разных код. Похоже, что в них содержится богатая информация об identity её источника, но в целом коммуникативные функции конкретных код остаются загадкой.
Jacob Andreas, Gašper Beguš, Michael M. Bronstein, Roee Diamant, Denley Delaney, Shane Gero, Shafi Goldwasser, David F. Gruber, Sarah de Haas, Peter Malkin, Nikolay Pavlov, Roger Payne, Giovanni Petri, Daniela Rus, Pratyusha Sharma, Dan Tchernov, Pernille Tønnesen, Antonio Torralba, Daniel Vogt, Robert J. Wood
Статья: https://www.sciencedirect.com/science/article/pii/S2589004222006642
Сайт: https://www.projectceti.org/
Познакомился тут с Томом Мастиллом, автором книги “How to speak whale” (https://www.tommustill.com/how-to-speak-whale), узнал от него про проект CETI, Cetacean Translation Initiative (https://www.projectceti.org/), я его раньше как-то пропустил. Очень зачётный проект! Название, видимо, отсылка к SETI. Цель проекта -- понять коммуникацию кашалотов. После просмотра Аватара 2 как-то особенно хорошо легло 🙂
У проекта есть программная статья от середины прошлого года (июнь 2022) с родмэпом про то, как участники хотят добиться понимания китовой коммуникации (спойлер: с помощью ML и роботов!). Эта работа может стать шаблоном для понимания других существ, потому что киты -- достаточно хороший модельный организм с развитыми нейроанатомическими признаками, высокими когнитивными способностями, социальной структурой и дискретным кодированием на основе щелчков (clicks).
Для понимания языкоподобной коммуникации надо понять несколько вещей.
1) Каковы артикуляторные и перцептивные строительные блоки, которые можно надёжно производить и распознавать? Это аналог фонетики и фонологии.
2) Каковы правила композиции этих примитивов? Это аналог морфологии и синтаксиса.
3) Каковы правила интерпретации и присвоения смысла этим блокам? Аналог семантики.
4) Может быть также важно влияние контекста на смысл, это прагматика.
В идеале хочется иметь универсальный автоматизированный data-driven toolkit, который можно применять к нечеловеческой коммуникации. Пока его нет.
Применение ML очень сильно упирается в отсутствие больших датасетов для этих задач, и вопросы сбора данных (Record), а также их процессинга (Process), например, аннотирование с добавлением ID кита, составляют отдельную большую часть проекта. Другая часть -- декодирование средствами ML и создание коммуникационной модели китов (Decode). Финальная важная часть, Encode & Playback подразумевает интерактивное взаимодействие с китами и уточнение китовой языковой модели.
Китов изучать сложно, по сравнению с земными животными сильно другая экология и среда. Так, до 1957 года вообще не знали, что кашалоты умеют производить звуки, и только в 1970-х впервые поняли, что они используют их для коммуникации. Киты путешествуют на тысячи километров, живут вероятно более ста лет, причём по сути в трёхмерной среде, часто стабильными социальными группами, подолгу заботясь о детёнышах. Социальное обучение для них вероятно важнее индивидуального или генетически обусловленного поведения. Большая часть их коммуникации, видимо, одномодальная, через акустику. В зоне, куда проникает свет, также важно зрение.
Биоакустическая система кашалота эволюционировала как сенсорный орган, используемый для эхолокации и поиска добычи. Производимые китом щелчки по структуре состоят из нескольких импульсов с мощным первым импульсом и последующими с затухающей амплитудой (получающимися благодаря реверберации начального импульса в спермацетовом органе в носу кита -- кажется, это похоже на основной тон и форманты в человеческой речи, но с антропоцентризмом надо, конечно, поосторожнее).
Кроме эхолокации, этот же орган используется и для коммуникации, она состоит из коротких пакетов щелчков (<2 секунд) с интервалами (Inter-click intervals, ICI) и выделяемыми паттернами, которые называются кодами (codas). Кода состоит из 2-40 всенаправленных кликов. У разных групп китов свои диалекты, обычно у клана есть по крайней мере 20 разных код. Похоже, что в них содержится богатая информация об identity её источника, но в целом коммуникативные функции конкретных код остаются загадкой.
Источник: gonzo-обзоры ML статей
2023-12-17 13:57:43