The Characteristics of Voice Search: Comparing Spoken with Typed-in Mobile Web Search Queries
1. The Characteristics of Voice Search:
Comparing Spoken with Typed-in
Mobile Web Search Queries
+ Transactions on Information Systems 2018
- Ido Guy
/ 박상아
3. 1. Why This Paper?
보이스 기반 지식 공유(검색) 서비스의 특징 탐색
“기존 웹에서 이루어지는 지식 공유(검색) 서비스와 차별화되는 부분이 무엇인가?”
“보이스 상황에서 어떠한 이슈가 발생할 수 있는가?”
4. 2. Background
•모바일 검색 환경에서 발전된 특징으로서 ‘음성 검색’이 등장하게 됨
•음성 검색은 타이핑보다 빠르고, 표현 방법이 자연스러우며, 멀티태스킹을 가능케 함
•이런 발전에도 불구하고, 음성 검색은 정보 인출 관련 문헌에서 많은 주의를 받지 못함
•Schalkwyk et al. (2010)의 ‘ Google 음성 검색'에 대한 연구: ‘짧은 쿼리(한두 단어)는 텍스트
쿼리보다 빈번하게 사용되는 반면 긴 쿼리(5단어 이상)는 훨씬 드물게 나타남.
웹 검색 엔진의 텍스트 쿼리와 음성 쿼리를 수집하여 비교·분석하고자 함
5. 3. Method
•Yahoo 모바일 검색 애플리케이션 대상
•6개월 동안 미국에서 영어로 생성된 음성 쿼리 50만 개를 수집함
•각 쿼리에는 쿼리와 타임 스탬프, 도시, 디바이스 유형, 나이와 성별, 클릭에 대한 정보 등이 포함됨
•이것을 동일한 모바일 앱에서 생성된 유사한 텍스트 쿼리 샘플과 비교
•기본 특성(컨텍스트, 길이, 세션 특성 등), 시맨틱 및 구문 분석, 클릭 행위, 자연어 코퍼스
•음성 쿼리(Voice Queries): ASR 기술을 통해 음성에서 텍스트로 변환된 쿼리
•텍스트 쿼리(Text Queries): 일반 키보드 인터페이스를 통해 수집된 쿼리
용어 정의
수집 데이터
분석 방법
6. 4. Results
1. Basic Characteristics
Context
•나이, 지역, 사용 요일에 있어서는 음성 쿼리와 텍스트 쿼리에 차이가 없었음
•그러나 사용 시간대에서는 유의미한 차이를 보임
: 음성 쿼리는 낮 시간(8am-8pm)에, 텍스트 쿼리는 밤과 아침 시간(8pm-8am)에 빈번
•Song et al.(2013)이 모바일 검색은 저녁 시간대에, 데스크탑 검색은 업무 시간대에 보편적
이라고 했던 것을 미루어 보아, 음성 검색이 데스크탑 사용 시간대와 근접함
7. 4. Results
1. Basic Characteristics
Queries
•평균 쿼리 길이(공백 토큰화된 단어의 수)는 음성 쿼리에서 유의미하게 높았음(4.2 vs 3.2)
•한 단어의 음성 쿼리는 특히 드물었음
•음성 쿼리에서는 5단어 이상이 34.5%이지만, 텍스트 쿼리에서는 21.2%에 불과
•이전 연구와는 다른 양상을 보이는 것을 알 수 있음
8. 4. Results
1. Basic Characteristics
Sessions
•세션은 개별 사용자가 입력한 일련의 쿼리를 뜻함
•본 분석에서는 15분 동안 비활성 상태 없이 발생하는 쿼리들을 하나의 세션으로 간주함
•세션 길이는 음성 쿼리와 텍스트 쿼리에서 유사하게 나타남
•가동되지 않는(idle) 시간은 음성 쿼리에서 더 짧았는데, 음성은 빠른 입력이 가능해서일 것
9. 4. Results
2. Query Semantics
Query Categories
•엔티티 인식과 지도 학습을 기반으로 한 쿼리 분류 도구를 이용해 카테고리화
•음성 쿼리에서 일반적으로 나타나는 카테고리는 CQA(질의응답)와 참조(백과사전) 등
•전반적으로 음성 쿼리는 질문 답변과 지식 검색에 더 많이 사용됨
10. 4. Results
2. Query Semantics
Distinctive Query Terms
•쿨백-라이블러 발산(KL, 두 분포가 얼마나 다른지를 나타내는 척도)을 이용해 어떤 용어가
음성 쿼리와 텍스트 쿼리를 특징 짓는지 탐색
•유니그램, 바이그램, 트라이그램에 대해 음성 쿼리-텍스트 쿼리 간 KL 차이에 가장 많이 기여
하는 용어를 계산
•음성 쿼리 대부분은 기능어, 의문사, 대명사 등으로 자연어 표현의 형태
•반면 텍스트 쿼리는 웹 사이트, 약어, 엔티티, 확장 키워드 등으로 나타남
11. 4. Results
2. Query Semantics
Additional Language Characteristics
•음성 쿼리의 9.9%는 wh- 의문사로 시작하며, 이는 텍스트 쿼리보다 2.67배 높음
•Amazon, eBay 등 온라인 웹 사이트는 텍스트 쿼리에 더 많이 사용되는 반면, Walmart 등
물리적 위치를 가진 소매 업체는 음성 쿼리에 더 많이 사용됨. 이는 음성 쿼리가 이동 중에 더
일반적으로 사용된다는 것을 암시함
•아래 표는 CQA 페이지에 도달한 음성 쿼리와 텍스트 쿼리 쌍의 예시
12. 4. Results
3. Clicks
•음성 쿼리와 텍스트 쿼리의 클릭 동작을 비교하고 클릭된 도메인의 분포를 조사
•음성 쿼리는 클릭률이 상대적으로 낮음
•음성 쿼리는 비디오 스트리밍, CQA 등의 사이트에 대한 클릭률이 지배적임
13. 5. Discussion & Conclusion
Discussion
Conclusion
•웹 검색 엔진의 음성 쿼리 로그를 가장 종합적으로 분석하여 제시한 연구임
•의미 분석을 심층 구문 분석과 결합함으로써, 텍스트 쿼리와 음성 쿼리의 차이점을 더욱 조명함
•언어 모델에 기반하여 음성 쿼리가 텍스트 쿼리보다 더 자연어에 가까움을 도출해냄
•의미 및 클릭 분석을 통해, 음성 쿼리가 오디오-비디오 콘텐츠에 더 초점을 맞추는 것을 확인
•음성 쿼리는 CQA 사이트의 클릭을 유도하는데, 이는 풍부한 언어를 사용해 구체적인 정보를 요구하
는 경우에 음성 쿼리가 빈번하게 사용되기 때문임 (Gupta and Bendersky 2015)
•음성 검색은 기기 터치 스크린과 상호작용이 덜 필요한 주제에 초점을 맞추는 경향
•높은 수준의 참여와 상호작용이 필요한 소셜 네트워크 사이트에 대한 쿼리는 음성에서 덜 발생
•쿼리 분석 결과, 음성 쿼리는 이동 중일 때 더욱 일반적
•음성 쿼리의 언어는 텍스트 쿼리보다 길고 풍부하며, 실제 자연어와 더욱 유사함
•하지만 자연어와 가까운 긴 쿼리가 반드시 검색 효율을 향상시키진 않음(white et al. 2015).
이와 관련하여, 길고 풍부한 음성 쿼리의 검색 프로세스 개선 방안을 추후에 연구해야 함
•답변을 찾을 수 없을 때 질문형 음성 쿼리를 통해 CQA 사이트에 직접 질문을 게시하는 방안도 고려
•음성 기반 대화 검색으로의 패러다임 변화를 위해, 음성 상황에서의 사용자 요구 이해가 필요함
14. 6. Takeaway
웹(타이핑) 지식 검색에 비해 음성 지식 검색이 갖는 특징
•편리한 사용 시간대가 웹 검색과 다르게 나타남 (보다 제한적)
•일상적인 자연어 형태에 가까운 발화
•풍부한 언어를 바탕으로 구체적인 정보를 요구함
•청각 또는 시청각 기반의 콘텐츠 탐색에 편리
음성 지식 검색에서 발생할 수 있는 이슈
•음성 쿼리는 이동 중일 때 일반적: 스마트 홈 기기의 경우 자연스러운 이용에 장애물
•자연어에 가까울수록 발화의 의도, 맥락을 이해하기가 까다로움: 매개 기술의 중요성