2012 IIAI International Conference on Advanced Applied Informatics

Development of a Website to Collect and Provide Questions about Book Titles Posted in Blogs and on Twitter

Shunsuke ARAI

Graduate School of Library, Information and Media Studies, University of Tsukuba

1-2 Kasuga, Tsukuba-city, Ibaraki-ken 305-8550, Japan syun0201@gmail.com

Keita TSUJI

Faculty of Library, Information and Media Science, University of Tsukuba

1-2 Kasuga, Tsukuba-city, Ibaraki-ken 305-8550, Japan keita@slis.tsukuba.ac.jp

Abstract— There are some people who post questions related to book titles in their blogs or on Twitter. If we develop a website that automatically collects such questions and asks for answers, other people who know the answers to these questions can respond efficiently. Hence, we have developed a method to semi-automatically collect questions from blogs and tweets, and we have built a website to display these questions. The proposed data collection method consists of two steps: (1) submission of words (to a search engine) that are characteristic to questions in order to obtain blog articles and tweets that are likely to contain questions, and (2) the use of automatic text classification to extract articles and tweets containing the questions. Through step (1), we extract characteristic words from 400 articles and tweets. In step (2), we adopt four classification methods (support vector machine (SVM), Naive Bayes, decision tree, and boosting) and compare their effectiveness by using 1,900 articles and tweets. It is found that

the characteristic words “taitoru-ga-omoidase-nai” produce the best precision (16% for Google Blog Search and 13% for Twitter Search) and (2) boosting and decision tree methods produce the best classification for blogs and Twitter (their F values a
2012 IIAI高级应用信息学国际会议

开发一个收集提供发布在博客和Twitter上关于书名问题的网站

Shunsuke ARAI

筑波大学图书馆，信息与媒体研究所

日本茨城县筑波市春日市1-2 305-8550，日本syun0201@gmail.com

Keita TSUJI

筑波大学图书馆，信息与媒体科学学院

日本茨城县筑波市春日市1-2 305-8550，日本keita@slis.tsukuba.ac.jp

摘要 - 有些人在他们的博客或Twitter上发布与书名有关的问题。如果我们开发一个自动收集此类问题并寻求答案的网站，那么知道这些问题答案的其他人可以有效地做出回应。因此，我们开发了一种从博客和推文中半自动收集问题的方法，并且我们已经建立了一个网站来展示这些问题。所提出的数据收集方法包括两个步骤：（1）提交单词（到搜索引擎），这些单词是问题的特征，以便获得可能包含问题的博客文章和推文，以及（2）使文本自动地分类，以提取包含问题的文章和推文。通过步骤（1），我们从400篇文章和推文中提取特征词。在步骤（2）中，我们采用四种分类方法（支持向量机（SVM），朴素贝叶斯，决策树和增强），并通过使用1,900篇文章和推文来比较它们的有效性。结果发现（1）特征词“taitoru-ga-omoidase-nai”产生最佳精度（谷歌博客搜索为16％，Twitter搜索为13％）和（2）强和决策树方法产生的分类准确率最高(F值分别为0.943和0.941)。当我们在我们的网站上显示30篇文章和31条包含问题的推文时，其中分别有6篇和5篇获得了满意的答案。

关键词 - 文本分类;博客;Twitter; Q＆A;参考服务
1. 引文
近年来，博客和Twitter用户的数量迅速增加。例如，尼尔森在线报道称，2010年4月约有1000万人访问了www.twitter.com。各种类型的用户的愿望都在博客和Twitter上表达出来，包括“回忆很久以前读过的一本书的书名”。许多这样的帖子都会列出一本书的内容，并含蓄地要求书名与描述相符。

然而，博客或Twitter上的文章是分散的，通常只有少数人阅读每篇文章。如果收集并向所有用户提供上述愿望的文章，知道书名的人可以将书名作为答案发布。

因此，本研究采用自动文本分类的方法，收集博客或Twitter上发表的描述这类问题的文章(以下简称“问题文章”)，以开发一个网站来寻求答案。

我们的网站在以下三个方面很有用。

(1)提高了问题文章作者提出问题的解决概率。

(2)把提问者和回答问题的应试者结合起来。由于他们对书籍有着相似的兴趣，他们可以通过以上的互动成为朋友。因此，这个网站鼓励人们建立新的联系。

(3)关于书名的问题，过去是图书馆的参考咨询服务可以回答的问题。如果图书馆员开始通过我们的网站把提供答案作为他们的作品之一，那么这个网站就可以成为一个外展参考服务。因此，可以将参考服务推广到博客或Twitter上的作者。

尽管这样的网站很有效，但到目前为止还没有开发出来。
1. 相关的研究
a .文本自动分类研究

支持向量机(SVMs)在[15]、[16]、[19]和[25]的研究中得到了广泛的应用。研究用自然的贝叶斯包括[1]、[3],[12],[27],[29]和[30]。使用boost的研究包括[17]、[22]和[32]。他们中的许多人使用一个语料库，如真实世界计算伙伴关系(RWCP)文本语料库和Reuters-21578集合。我们的研究使用相同的方法，但是分类的目标不同。

b .社交网络服务研究(SNS)

Facebook、Twitter和mixi是一些流行的社交网络服务(SNS)。SNS的研究包括[20]、[24]、[34]和[36]。本研究所要建立的网站，在追求鼓励人与人之间建立联系方面，可以看作是一种社交网络。然而，如上所述，这样的网站并不存在，目前还没有对开发这样的网站进行研究。
1. 初步调查
在发展上述网站之前，我们已确认以下三点，以确保网站的实用性:

(1)网络上有很多带问题的博客文章。

(2)贴在那里的许多问题都可以得到解答。

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

开发一个收集提供发布在博客和Twitter上关于书名问题的网站外文翻译资料

Shunsuke ARAI

Keita TSUJI

开发一个收集提供发布在博客和Twitter上关于书名问题的网站

您可能感兴趣的文章

登录

注册

找回密码

Shunsuke ARAI

Keita TSUJI

开发一个收集提供发布在博客和Twitter上关于书名问题的网站

您可能感兴趣的文章