Jak funguje funkce Hum to Search od Googlu

Klíčové věci

  • Google spustil nový nástroj, který uživatelům umožňuje vyhledávat písničky broukáním, zpěvem nebo pískáním.
  • Nový nástroj využívá strojové učení ke spárování hučící stopy s databází více než půl milionu skladeb, která se neustále aktualizuje.
  • Uživatelé Googlu se každý měsíc ptají, která skladba se hraje téměř 100krát.
Záběr ženy používající svůj mobil při relaxaci doma
laflor / Getty Images

Google spustil novou funkci s názvem „Hum to Search" k vyřešení frustrujícího problému: když vám píseň uvízla v hlavě a nejste schopni přijít na to, jak se jmenuje.

Myšlenka broukat při hledání skladby se zdá neuvěřitelně jednoduchá, tak proč Google spouští tuto funkci až v roce 2020? No, ukázalo se, že identifikace písní tímto způsobem je ve skutečnosti docela komplikovaná, zčásti proto, že naše melírované verze mají tendenci být dost odlišné od původní skladby. V nedávném příspěvku na blogu AI Google vysvětluje, jak používal strojové učení vyřešit tento problém a v konečném důsledku pomoci lidem najít skladbu broukáním, pískáním nebo zpíváním melodie, i když je jejich interpretace méně než přesná.

"Naše zaměření pro Hum to Search je pomáhat lidem identifikovat a najít hudbu, která jim uvízla v hlavě," řekl mluvčí Google. Lifewire v e-mailu.

Stačí začít hučet

Uživatelé Googlu se každý měsíc ptají, která skladba se hraje téměř 100 milionůkrát, Aparna Chennapragada, viceprezident společnosti Google a generální manažer spotřebitelského nakupování, řekl úvodní video několik nových funkcí vyhledávání. Nyní existuje způsob, jak to zjistit.

"Hum to Search“ je integrována do mobilní aplikace Google, widgetu Vyhledávání Google a Asistenta Google. Chcete-li k němu přistupovat prostřednictvím aplikace, klepněte na ikonu mikrofonu a řekněte „Co je to za skladbu?“ Funguje také výběr tlačítka „Search a Song“.

Aby tato funkce fungovala správně, vyžaduje, abyste si alespoň 10–15 sekund bzučeli. Uživatelé Androidu mohou broukat a najít skladby ve více než 20 jazycích, zatímco na iPhonech fungují pouze anglické skladby. Nástroj není vždy schopen identifikovat skladbu hned, ale jakmile to udělá, výsledky jsou docela dobré.

„Naše algoritmy rozpoznávají více než polovinu skladeb širokého souboru proměnných (tón, výška tónu, hlasitost atd.), ale přesnost samozřejmě závisí na kvalitě hučení, typu skladby a dalších,“ mluvčí Google řekl Lifewire v e-mailu. "Ale jakmile je rozpoznán, zhruba čtyři z pěti odpovědí jsou správné."

Není to však poprvé, co bylo bzučení použito v aplikaci pro identifikaci hudby. SoundHound nabízí podobnou funkci, jak uvádí CNN Businessa je k dispozici také pro Android a iOS. Podle mluvčího Google nová funkce nevyvolává žádné obavy o soukromí a ani „nemění způsob, jakým Google zpracovává zvukové interakce,“ řekli. Lifewire v e-mailu.

Strojové učení

Navzdory jednoduchosti konceptu je pobrukování melodie při hledání studiové nahrávky technicky dost obtížné. Existuje pro to několik důvodů, vysvětluje Christian Frank z Google Research Listopad. 12 blogový příspěvek. Zaprvé, pobrukovaná verze písně se může značně lišit od skutečné nahrávky, takže je obtížné tyto dvě srovnat. Takže, zatímco Shazam a a řadu dalších aplikací již existují k identifikaci písně, kterou slyšíte v restauraci nebo na jiném veřejném místě, použití broukané melodie jako základu pro toto hledání může být složitější.

"S texty, doprovodnými vokály a nástroji se zvuk hudební nebo studiové nahrávky může zcela lišit od pobrukované melodie," píše Frank. "Omylem nebo záměrem, když si někdo pobrukuje svou interpretaci písně, často se výška, tónina, tempo nebo rytmus mohou mírně nebo dokonce výrazně lišit."

Vizualizace zahučeného klipu od Googlu vedle odpovídající studiové nahrávky.
Google

Vzhledem k tomu, že pobrukované verze písní mohou být tak odlišné od originálů, Frank poznamenává, že mnoho minulých metod ano vyžadovalo sladění hučení člověka s verzí písně, která má pouze melodii, nebo skladbou, která obsahuje bzučení. Díky tomu byly případy použití v reálném světě náročné, protože databáze s těmito skladbami mohou být omezené a je třeba je ručně aktualizovat.

Google vysvětluje, že pro funkci Hum to Search používá modely strojového učení k přeměně zvuku na zvuk „číslicová sekvence“, která představuje melodii písně – to, co říká, lze považovat za a "otisk prstu."

Uživatelsky přívětivější

Využití strojového učení ve funkci Hum to Search společnosti Google v konečném důsledku značně usnadňuje používání tohoto nástroje v reálném světě. Protože Hum to Search odpovídá zabručené melodii hledajícího se skutečnou skladbou, je nástroj schopen pracovat s novým písně tak, jak jsou vydávány, místo databáze, kterou je třeba neustále aktualizovat o hučící verze každé z nich dráha. Navíc k jejímu použití nepotřebujete perfektní rozteč.

„Současný systém dosahuje vysoké úrovně přesnosti v databázi skladeb, která obsahuje přes půl milionu skladeb, které neustále aktualizujeme,“ uvedl Google ve svém oznámení Hum to Search. "Tento písňový korpus má stále prostor k růstu, aby zahrnoval další z mnoha světových melodií."